Giter Club home page Giter Club logo

Comments (21)

AndreiArion avatar AndreiArion commented on June 21, 2024

Est-ce que vous pouvez verifier votre adresse IP publique et nous la transmettre?

Comme indique dans le mail des données:

"Ces jeux de données sont accessibles uniquement depuis AWS et uniquement depuis la région us-east-1 . N'oubliez pas cet aspect quand vous créerez votre cluster (mettez les nœuds dans la région us-east-1)."

Uniquement des IPs de la region us-east-1 sont autorises. La liste complete de IP autorisees est dans le fichier: https://github.com/AndreiArion/bigdata-project-2014/blob/master/aws/s3/bucket_policy.json

from bigdata-paristech-project-2014.

christianBGD avatar christianBGD commented on June 21, 2024

Oui je suis sur Amazon :
us-east-1d
54.152.47.119

J'ai l'impression que c'est le s3n:// qui ne passe pas.

Christian

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

Sur le noeud AWS est-ce que vous avez exporte vos credentials AWS?

export AWS_ACCESS_KEY_ID=....
export AWS_SECRET_ACCESS_KEY=...

from bigdata-paristech-project-2014.

christianBGD avatar christianBGD commented on June 21, 2024

En fait j'ai terminé les instances : Rien que pour des tests, j'en ai eu pour $31 !

Quelle configuration recommandez-vous ?

Merci de votre aide.

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

Pour les testes c'est bien de démarrer avec une seule instance (m3.large par exemple.)
Il faut surtout utiliser l'instance 1-2 heures pour récupérer le max d'info possibles, par exemple:
*charger les données 1-10GB, et analyser les perf pour dimensionner le cluster de "prod".
...puis la liberer

Si vous avez toujours de problemes d'acces donnez-moi votre ip + aws user name (IAM user) + date de votre test et je vais regarder dans les logs d'acces S3.

from bigdata-paristech-project-2014.

christianBGD avatar christianBGD commented on June 21, 2024

OK bien compris.

J'ai toutefois une question importante :
Pour des tests sur Cassandra, j'ai chargé 2.000.000 lignes, qui représentent 1/9 du fichier de 1 GB.
Or, ces 2 millions de lignes prennent 100MB sur disque.
Ca veut dire que - grosso modo - pour le fichier de 100 GB on aura 100_9_100 = 90GB, sans compter les commitlogs.

Comment conciler le volume de stockage et le respect du budget ?

Pour les logs d'accès je vous enverrai mon ip et mon IAM ce soir (je suis à l'école aujourd'hui)

Merci de votre aide.

from bigdata-paristech-project-2014.

rfokou avatar rfokou commented on June 21, 2024

Bonjour,
Après exportation des credentials AWS, je rencontre le même souci:
[ec2-user@ip-172-31-20-160 ~]$ aws s3 cp s3://bigdata-paristech/projet2014/data/data/data_10GB.csv data_10GB.csv
A client error (403) occurred when calling the HeadObject operation: Forbidden

Je suis sur la région us-east-1a avec une adresse IP publique: 54.152.223.121 (le 03/02/2015 à 11:15"

Cordialement, Raoul

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

L'ip 54.152.223.121 est bien autorisé, c'est peut être un pb au niveau de la configuration de l'utilisateur?
Est-ce que vous avez rajouté a votre utilisateur aws une policy(user policy ou group policy) qui autorise l’accès a S3?
Vous pouvez vérifier via cet URL:
https://console.aws.amazon.com/iam/home?region=us-east-1#users/XXXXX
(remplacer XXXXX par votre nom d'utilisateur)

from bigdata-paristech-project-2014.

rfokou avatar rfokou commented on June 21, 2024

J'ai rajouté cette user policy vers 13h mais après avoir relancé mon EC2, j'ai toujours le même message d'erreur ... operation: Forbidden.

from bigdata-paristech-project-2014.

gitthabet avatar gitthabet commented on June 21, 2024

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

  1. commander une machine MongoDB 2.4 with 4000 IOPS
    http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
    temps (1mn)
    2)se connecter à La machine aws
    chmod 400 ahmed.pem
    ssh -i ahmed.pem [email protected]
    temps (1mn)
  2. importer les 1GB :
    wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
    --> et ça bien tourné.
    Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide

from bigdata-paristech-project-2014.

christianBGD avatar christianBGD commented on June 21, 2024

Salut Thabet,

essaye d'utiliser un curl au lieu du wget

curl -C s3n://toto/fichier -o fichier_local

Cordialement,

Christian Penon
MS-BGD
+33 6 77 09 21 41

----- Mail original -----

De: "CHELLIGUE Thabet" [email protected]
À: "AndreiArion/bigdata-project-2014" [email protected]
Cc: "christianBGD" [email protected]
Envoyé: Samedi 7 Février 2015 12:05:06
Objet: Re: [bigdata-project-2014] Impossible de télécharger les fichiers à partir d'Amazon : (#10)

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

  1. commander une machine MongoDB 2.4 with 4000 IOPS
    http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
    temps (1mn)
    2)se connecter à La machine aws
    chmod 400 ahmed.pem

ssh -i ahmed.pem [email protected]

temps (1mn)
3) importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide


Reply to this email directly or view it on GitHub .

from bigdata-paristech-project-2014.

gitthabet avatar gitthabet commented on June 21, 2024

pareil , la commande :

curl -s http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_10GB.csv > data.csv

est limitée à 6 GB :(

from bigdata-paristech-project-2014.

PhilippeCayeux avatar PhilippeCayeux commented on June 21, 2024

Bonjour,
Pouvez-vous nous donner les autorisations pour les adresses 52.0.203.176, 52.0.209.29, 52.0.208.97, 52.0.205.136, 52.0.206.86 et 52.0.45.23 ?

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

Bonjour PhilippeCayeux depuis mercredi j'ai désactivé tout contrôle sur l'adresse IP donc il n'y a pas besoin d’autorisation.

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

gitthabet tu peux faire un pwd et un df? par exemple:

[andrei@desktop ~]$ pwd
/home/andrei
[andrei@desktop ~]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/fedora_pc12-root 50G 20G 27G 43% /
devtmpfs 7.7G 0 7.7G 0% /dev
tmpfs 7.7G 67M 7.7G 1% /dev/shm
tmpfs 7.7G 1012K 7.7G 1% /run
tmpfs 7.7G 0 7.7G 0% /sys/fs/cgroup
tmpfs 7.7G 336K 7.7G 1% /tmp
/dev/sda2 477M 131M 318M 30% /boot
/dev/sda1 200M 9.3M 191M 5% /boot/efi
/dev/mapper/fedora_pc12-home 97G 77G 16G 84% /home
/dev/sdc1 147G 119G 21G 86% /mnt/store

from bigdata-paristech-project-2014.

gitthabet avatar gitthabet commented on June 21, 2024

ça donne ça :
[ec2-user@ip-172-31-46-54 ~]$ pwd
/home/ec2-user
[ec2-user@ip-172-31-46-54 ~]$ df -h
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/xvda1 7,8G 1,5G 6,3G 19% /
devtmpfs 3,7G 24K 3,7G 1% /dev
tmpfs 3,7G 0 3,7G 0% /dev/shm
/dev/xvdf 394G 569M 374G 1% /data
/dev/xvdg 25G 45M 24G 1% /journal
/dev/xvdh 20G 45M 19G 1% /log

from bigdata-paristech-project-2014.

PhilippeCayeux avatar PhilippeCayeux commented on June 21, 2024

Alors pourquoi ne parviens-je pas à récupérer les données ?
Lorsque je lance la commande (pour voir le contenu du répertoire) :
aws s3 ls s3://bigdata-paristech/projet2014/data
J'obitens le message d'erreur suivant :
A client error (AccessDenied) occurred when calling the ListObjects operation: Access Denied
Je crois avoir défini les autorisations nécessaires, mais comme je ne connais pas le fonctionnement d'AWS, et qu'il est d'une grande complexité, il est possible que quelque chose m'ait échappé ?

from bigdata-paristech-project-2014.

PhilippeCayeux avatar PhilippeCayeux commented on June 21, 2024

Apparemment, si la commande aws s3 ls ne marche pas, la commande aws s3 cp fonctionne (j'ai pu récupérer le fichier de 1 Go). Je ne peux pas récupérer le fichier de 100 Go en une seule fois (trop gros), mais il paraît que vous avez mis à disposition un jeu de 20 fichiers de 5 Go. Pouvez-vous m'en donner les noms ?

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

gitthabet t'est sur une partition qui a seulement 6GB ( ton home -> /home/ec2-user est sur la partition /)
Tu as 374GB dispo sur la partition /data donc tu peux telecharger le fichier sur cette partition:
cd /data
curl..../ aws s3 cp ...

from bigdata-paristech-project-2014.

gitthabet avatar gitthabet commented on June 21, 2024

That's OK, merci

from bigdata-paristech-project-2014.

AndreiArion avatar AndreiArion commented on June 21, 2024

gitthabet et PhilippeCayeux : c'est une mauvaise idée d'utiliser s3 comme un système de fichiers habituel. Faire des copies via curl /aws s3 cp c'est utile pour tester les droit AWS/S3 mais
S3 c'est un système de fichiers distribué et l'un des gros avantages c'est la possibilité de faire beaucoup de lectures en parallèle sur plusieurs noeuds en même temps. S3 est optimisé pour la lecture parallèle et vous pouvez attendre des très gros débit de transfert a la condition d'exploiter ce parallélisme...

from bigdata-paristech-project-2014.

Related Issues (13)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.