lesfurets / bigdata-paristech-project-2014 Goto Github PK

View Code? Open in Web Editor NEW

2.0 2.0 1.0 664 KB

Repository for the bigdata project @Paristech 2014

bigdata-paristech-project-2014's People

Contributors

Stargazers

Watchers

Forkers

florianriche

bigdata-paristech-project-2014's Issues

Precisions sur la repartition des numeros de telephone

From: Guillaume Perrin-Houdon [email protected]
Date: 2015-01-19 19:33 GMT+01:00
Subject: Re: Projet : début du dataset

Nous travaillons sur le fichier de 1MB et allons travailler bientôt sur les 1Gb et 10GB.
Nous avons néanmoins une question structurante :

le fichier de 1MB présente beaucoup de numéros de téléphone, avec peu de relevés de position pour chacun.
-> dans quel mesure est-ce que ce sera le cas pour les plus gros fichiers.
-> Peut-on considérer qu’il y a un panel d’utilisateurs constant, que l’on suite dans le temps et dont la position est relevée régulièrement au cours du mois (a minima une centaine de relevés si on considère que les observations portent sur une période d’un mois).

En tentant d’extrapoler le ficher de 1Mo, nous avons quelques interrogations :

1MO -> environ 17000 de relevés, pour 15600 numéros différents
en extrapolant : 100 Go donnerait 160 millions de relevé, ce qui nous semble faible pour 127 millions d’habitants.

Format de date des données

Je me pose une question sur le fichier de données réduit que vous nous avez communiqué : le séparateur décimal des secondes de la date est la virgule. Cela reflète-t-il bien ce que sera le fichier complet et définitif ?

Import des données en MongoDB

Nous avons finalement pu récupérer et prétraiter le fichier de 100 Go, et démarré l'import dans MongoDB. Problème : l'utilitaire mongoimport avale environ 1500 lignes/s, et il y en a 1.800.000.000 ! Y a-t-il moyen de traiter le fichier plus vite ? Sachant que nous avons mongoshell sur trois des noeuds, est-il par exemple possible (et cela irait-il plus vite) de paralléliser l'import sur ces trois noeuds, avec pour chacun un tiers du fichier ?

Gestion des noeuds du cluster

L'énoncé demande un cluster de 5 noeuds pour les données dans les 5 plus grandes villes du Japon, faut-il gère la possibilité que plus de 2 peuvent tomber avec un tremblement de terre. Tokyo, Yokohama, Nagoya et Osaka peuvent se retrouver dans la zone d'un rayon de 500km dont l'épicentre est dans le large, dans ce cas extreme 4 des noeuds tombent, il n'en reste qu'un seul.
Sommes nous obligés de garder ces 5 villes ? Doit-on rajouter des noeuds supplémentaires pour le cluster de données ?

Distribution du/des serveur(s) applicatif(s)

Bonjour,

L'énoncé indique que nous devons monter un cluster de données constitué de 5 noeuds.
La logique applicative doit-elle être elle aussi distribuée sur ce même cluster de 5 noeuds ? Ou pouvons-nous imaginer qu'il existe un "centre de contrôle" à l'abri des séisme et qui centralise la logique applicative (i.e un serveur EC2 à part qu'on ne va pas shutdown) ?

Merci !

Donnes d'entree pour le projet

Rajouter des précisions sur les données d’entrée pour le projet:

description des jeux de données
comment y acceder
restrictions d'access (region AWS + taille)

Impossible de télécharger les fichiers à partir d'Amazon :

2015-01-27 21:30 GMT+01:00 Christian:

Impossible de télécharger les fichiers à partir d4amazon :

ubuntu@ip-10-0-10-248:~$ aws s3 cp s3n://bigdata-paristech/projet2014/data/data_10GB.csv data_10GB.csv

usage: aws s3 cp or or
Error: Invalid argument type

Et lorsque je change s3n:// par s3:// j'obtiens une erreur 403

Reference implementation

Donner aux étudiants une idée sur la taille du cluster / budget prévisionnel/max.

Gestion de Spark

Pour l'utilisation de Spark, qui a besoin d'un master, peut-on simuler que le master n'est pas au japon ?
Sinon comment gérer le besoin d'un noeud master dans le stack ?

Format du timestamp

La commande COPY ne semble pas importer correctement les données timestamp. Le problème se pose au niveau des millisecondes:

cqlsh> CREATE TABLE ks.sample3 ( time timestamp, station varchar, lat double, lon double, phone varchar, PRIMARY KEY (time, station, lat, lon));
cqlsh> COPY ks.sample3 FROM 'sample.csv' WITH DELIMITER=';';

code=2200 [Invalid query] message="unable to coerce '2015-01-18 09:19:16,888' to a formatted date (long)"
Aborting import at record #1. Previously-inserted values still present.
0 rows imported in 0.018 seconds.

Si j'enlève les millisecondes manuellement du .csv le COPY se fait correctement.

Comment faire en sorte que COPY accepte les millisecondes?
J'ai essayé sans succès de rajouter une ligne time_format à mon cqlshrc:
time_format = '%Y-%m-%d %H:%M:%f'
Y-a-t'il une erreur dans ce format?
comment faire?

S3 bucket policy misses some IPs from us-east-1.

Update the bucket policy to include the latest IPs from the AWS ip-ranges list: https://ip-ranges.amazonaws.com/ip-ranges.json

Chargement CSV avant démonstration

Bonjour

Devons-nous considérer que l'insertion des données des fichiers CSV fait partie de la "démo" et que c'est donc à optimiser ou alors est-ce une étape préliminaire à avoir fait avant la démonstration?

Merci pour votre réponse!

Jeu de données projet Big Data

Bonjour,

j'aimerais avoir accès à des jeux de données plus importants (celui de 1m ne contient pas de doublon de n° de tél.)

Merci de votre aide.

Christian