Comments (21)
Est-ce que vous pouvez verifier votre adresse IP publique et nous la transmettre?
Comme indique dans le mail des données:
"Ces jeux de données sont accessibles uniquement depuis AWS et uniquement depuis la région us-east-1 . N'oubliez pas cet aspect quand vous créerez votre cluster (mettez les nœuds dans la région us-east-1)."
Uniquement des IPs de la region us-east-1 sont autorises. La liste complete de IP autorisees est dans le fichier: https://github.com/AndreiArion/bigdata-project-2014/blob/master/aws/s3/bucket_policy.json
from bigdata-paristech-project-2014.
Oui je suis sur Amazon :
us-east-1d
54.152.47.119
J'ai l'impression que c'est le s3n:// qui ne passe pas.
Christian
from bigdata-paristech-project-2014.
Sur le noeud AWS est-ce que vous avez exporte vos credentials AWS?
export AWS_ACCESS_KEY_ID=....
export AWS_SECRET_ACCESS_KEY=...
from bigdata-paristech-project-2014.
En fait j'ai terminé les instances : Rien que pour des tests, j'en ai eu pour $31 !
Quelle configuration recommandez-vous ?
Merci de votre aide.
from bigdata-paristech-project-2014.
Pour les testes c'est bien de démarrer avec une seule instance (m3.large par exemple.)
Il faut surtout utiliser l'instance 1-2 heures pour récupérer le max d'info possibles, par exemple:
*charger les données 1-10GB, et analyser les perf pour dimensionner le cluster de "prod".
...puis la liberer
Si vous avez toujours de problemes d'acces donnez-moi votre ip + aws user name (IAM user) + date de votre test et je vais regarder dans les logs d'acces S3.
from bigdata-paristech-project-2014.
OK bien compris.
J'ai toutefois une question importante :
Pour des tests sur Cassandra, j'ai chargé 2.000.000 lignes, qui représentent 1/9 du fichier de 1 GB.
Or, ces 2 millions de lignes prennent 100MB sur disque.
Ca veut dire que - grosso modo - pour le fichier de 100 GB on aura 100_9_100 = 90GB, sans compter les commitlogs.
Comment conciler le volume de stockage et le respect du budget ?
Pour les logs d'accès je vous enverrai mon ip et mon IAM ce soir (je suis à l'école aujourd'hui)
Merci de votre aide.
from bigdata-paristech-project-2014.
Bonjour,
Après exportation des credentials AWS, je rencontre le même souci:
[ec2-user@ip-172-31-20-160 ~]$ aws s3 cp s3://bigdata-paristech/projet2014/data/data/data_10GB.csv data_10GB.csv
A client error (403) occurred when calling the HeadObject operation: Forbidden
Je suis sur la région us-east-1a avec une adresse IP publique: 54.152.223.121 (le 03/02/2015 à 11:15"
Cordialement, Raoul
from bigdata-paristech-project-2014.
L'ip 54.152.223.121 est bien autorisé, c'est peut être un pb au niveau de la configuration de l'utilisateur?
Est-ce que vous avez rajouté a votre utilisateur aws une policy(user policy ou group policy) qui autorise l’accès a S3?
Vous pouvez vérifier via cet URL:
https://console.aws.amazon.com/iam/home?region=us-east-1#users/XXXXX
(remplacer XXXXX par votre nom d'utilisateur)
from bigdata-paristech-project-2014.
J'ai rajouté cette user policy vers 13h mais après avoir relancé mon EC2, j'ai toujours le même message d'erreur ... operation: Forbidden.
from bigdata-paristech-project-2014.
hello,
Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :
- commander une machine MongoDB 2.4 with 4000 IOPS
http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
temps (1mn)
2)se connecter à La machine aws
chmod 400 ahmed.pem
ssh -i ahmed.pem [email protected]
temps (1mn) - importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.
Merci pour votre aide
from bigdata-paristech-project-2014.
Salut Thabet,
essaye d'utiliser un curl au lieu du wget
curl -C s3n://toto/fichier -o fichier_local
Cordialement,
Christian Penon
MS-BGD
+33 6 77 09 21 41
----- Mail original -----
De: "CHELLIGUE Thabet" [email protected]
À: "AndreiArion/bigdata-project-2014" [email protected]
Cc: "christianBGD" [email protected]
Envoyé: Samedi 7 Février 2015 12:05:06
Objet: Re: [bigdata-project-2014] Impossible de télécharger les fichiers à partir d'Amazon : (#10)
hello,
Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :
- commander une machine MongoDB 2.4 with 4000 IOPS
http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
temps (1mn)
2)se connecter à La machine aws
chmod 400 ahmed.pem
ssh -i ahmed.pem [email protected]
temps (1mn)
3) importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.
Merci pour votre aide
—
Reply to this email directly or view it on GitHub .
from bigdata-paristech-project-2014.
pareil , la commande :
curl -s http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_10GB.csv > data.csv
est limitée à 6 GB :(
from bigdata-paristech-project-2014.
Bonjour,
Pouvez-vous nous donner les autorisations pour les adresses 52.0.203.176, 52.0.209.29, 52.0.208.97, 52.0.205.136, 52.0.206.86 et 52.0.45.23 ?
from bigdata-paristech-project-2014.
Bonjour PhilippeCayeux depuis mercredi j'ai désactivé tout contrôle sur l'adresse IP donc il n'y a pas besoin d’autorisation.
from bigdata-paristech-project-2014.
gitthabet tu peux faire un pwd et un df? par exemple:
[andrei@desktop ~]$ pwd
/home/andrei
[andrei@desktop ~]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/fedora_pc12-root 50G 20G 27G 43% /
devtmpfs 7.7G 0 7.7G 0% /dev
tmpfs 7.7G 67M 7.7G 1% /dev/shm
tmpfs 7.7G 1012K 7.7G 1% /run
tmpfs 7.7G 0 7.7G 0% /sys/fs/cgroup
tmpfs 7.7G 336K 7.7G 1% /tmp
/dev/sda2 477M 131M 318M 30% /boot
/dev/sda1 200M 9.3M 191M 5% /boot/efi
/dev/mapper/fedora_pc12-home 97G 77G 16G 84% /home
/dev/sdc1 147G 119G 21G 86% /mnt/store
from bigdata-paristech-project-2014.
ça donne ça :
[ec2-user@ip-172-31-46-54 ~]$ pwd
/home/ec2-user
[ec2-user@ip-172-31-46-54 ~]$ df -h
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/xvda1 7,8G 1,5G 6,3G 19% /
devtmpfs 3,7G 24K 3,7G 1% /dev
tmpfs 3,7G 0 3,7G 0% /dev/shm
/dev/xvdf 394G 569M 374G 1% /data
/dev/xvdg 25G 45M 24G 1% /journal
/dev/xvdh 20G 45M 19G 1% /log
from bigdata-paristech-project-2014.
Alors pourquoi ne parviens-je pas à récupérer les données ?
Lorsque je lance la commande (pour voir le contenu du répertoire) :
aws s3 ls s3://bigdata-paristech/projet2014/data
J'obitens le message d'erreur suivant :
A client error (AccessDenied) occurred when calling the ListObjects operation: Access Denied
Je crois avoir défini les autorisations nécessaires, mais comme je ne connais pas le fonctionnement d'AWS, et qu'il est d'une grande complexité, il est possible que quelque chose m'ait échappé ?
from bigdata-paristech-project-2014.
Apparemment, si la commande aws s3 ls ne marche pas, la commande aws s3 cp fonctionne (j'ai pu récupérer le fichier de 1 Go). Je ne peux pas récupérer le fichier de 100 Go en une seule fois (trop gros), mais il paraît que vous avez mis à disposition un jeu de 20 fichiers de 5 Go. Pouvez-vous m'en donner les noms ?
from bigdata-paristech-project-2014.
gitthabet t'est sur une partition qui a seulement 6GB ( ton home -> /home/ec2-user est sur la partition /)
Tu as 374GB dispo sur la partition /data donc tu peux telecharger le fichier sur cette partition:
cd /data
curl..../ aws s3 cp ...
from bigdata-paristech-project-2014.
That's OK, merci
from bigdata-paristech-project-2014.
gitthabet et PhilippeCayeux : c'est une mauvaise idée d'utiliser s3 comme un système de fichiers habituel. Faire des copies via curl /aws s3 cp c'est utile pour tester les droit AWS/S3 mais
S3 c'est un système de fichiers distribué et l'un des gros avantages c'est la possibilité de faire beaucoup de lectures en parallèle sur plusieurs noeuds en même temps. S3 est optimisé pour la lecture parallèle et vous pouvez attendre des très gros débit de transfert a la condition d'exploiter ce parallélisme...
from bigdata-paristech-project-2014.
Related Issues (13)
- Donnes d'entree pour le projet HOT 2
- Gestion des noeuds du cluster HOT 1
- Gestion de Spark HOT 1
- Import des données en MongoDB HOT 2
- Reference implementation HOT 1
- Precisions sur la repartition des numeros de telephone HOT 1
- Jeu de données projet Big Data HOT 1
- Chargement CSV avant démonstration HOT 2
- Distribution du/des serveur(s) applicatif(s) HOT 2
- Format du timestamp HOT 2
- Format de date des données HOT 1
- S3 bucket policy misses some IPs from us-east-1.
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from bigdata-paristech-project-2014.