lesfurets / bigdata-paristech-project-2014 Goto Github PK
View Code? Open in Web Editor NEWRepository for the bigdata project @Paristech 2014
Repository for the bigdata project @Paristech 2014
From: Guillaume Perrin-Houdon [email protected]
Date: 2015-01-19 19:33 GMT+01:00
Subject: Re: Projet : début du dataset
Nous travaillons sur le fichier de 1MB et allons travailler bientôt sur les 1Gb et 10GB.
Nous avons néanmoins une question structurante :
En tentant d’extrapoler le ficher de 1Mo, nous avons quelques interrogations :
Je me pose une question sur le fichier de données réduit que vous nous avez communiqué : le séparateur décimal des secondes de la date est la virgule. Cela reflète-t-il bien ce que sera le fichier complet et définitif ?
Nous avons finalement pu récupérer et prétraiter le fichier de 100 Go, et démarré l'import dans MongoDB. Problème : l'utilitaire mongoimport avale environ 1500 lignes/s, et il y en a 1.800.000.000 ! Y a-t-il moyen de traiter le fichier plus vite ? Sachant que nous avons mongoshell sur trois des noeuds, est-il par exemple possible (et cela irait-il plus vite) de paralléliser l'import sur ces trois noeuds, avec pour chacun un tiers du fichier ?
L'énoncé demande un cluster de 5 noeuds pour les données dans les 5 plus grandes villes du Japon, faut-il gère la possibilité que plus de 2 peuvent tomber avec un tremblement de terre. Tokyo, Yokohama, Nagoya et Osaka peuvent se retrouver dans la zone d'un rayon de 500km dont l'épicentre est dans le large, dans ce cas extreme 4 des noeuds tombent, il n'en reste qu'un seul.
Sommes nous obligés de garder ces 5 villes ? Doit-on rajouter des noeuds supplémentaires pour le cluster de données ?
Bonjour,
L'énoncé indique que nous devons monter un cluster de données constitué de 5 noeuds.
La logique applicative doit-elle être elle aussi distribuée sur ce même cluster de 5 noeuds ? Ou pouvons-nous imaginer qu'il existe un "centre de contrôle" à l'abri des séisme et qui centralise la logique applicative (i.e un serveur EC2 à part qu'on ne va pas shutdown) ?
Merci !
Rajouter des précisions sur les données d’entrée pour le projet:
2015-01-27 21:30 GMT+01:00 Christian:
Impossible de télécharger les fichiers à partir d4amazon :
ubuntu@ip-10-0-10-248:~$ aws s3 cp s3n://bigdata-paristech/projet2014/data/data_10GB.csv data_10GB.csv
usage: aws s3 cp or or
Error: Invalid argument type
Et lorsque je change s3n:// par s3:// j'obtiens une erreur 403
Donner aux étudiants une idée sur la taille du cluster / budget prévisionnel/max.
Pour l'utilisation de Spark, qui a besoin d'un master, peut-on simuler que le master n'est pas au japon ?
Sinon comment gérer le besoin d'un noeud master dans le stack ?
La commande COPY ne semble pas importer correctement les données timestamp. Le problème se pose au niveau des millisecondes:
cqlsh> CREATE TABLE ks.sample3 ( time timestamp, station varchar, lat double, lon double, phone varchar, PRIMARY KEY (time, station, lat, lon));
cqlsh> COPY ks.sample3 FROM 'sample.csv' WITH DELIMITER=';';
code=2200 [Invalid query] message="unable to coerce '2015-01-18 09:19:16,888' to a formatted date (long)"
Aborting import at record #1. Previously-inserted values still present.
0 rows imported in 0.018 seconds.
Si j'enlève les millisecondes manuellement du .csv le COPY se fait correctement.
Comment faire en sorte que COPY accepte les millisecondes?
J'ai essayé sans succès de rajouter une ligne time_format à mon cqlshrc:
time_format = '%Y-%m-%d %H:%M:%f'
Y-a-t'il une erreur dans ce format?
comment faire?
Update the bucket policy to include the latest IPs from the AWS ip-ranges list: https://ip-ranges.amazonaws.com/ip-ranges.json
Bonjour
Devons-nous considérer que l'insertion des données des fichiers CSV fait partie de la "démo" et que c'est donc à optimiser ou alors est-ce une étape préliminaire à avoir fait avant la démonstration?
Merci pour votre réponse!
Bonjour,
j'aimerais avoir accès à des jeux de données plus importants (celui de 1m ne contient pas de doublon de n° de tél.)
Merci de votre aide.
Christian
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.