Giter Club home page Giter Club logo

bigdata-paristech-project-2014's People

Contributors

andreiarion avatar

Stargazers

 avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Forkers

florianriche

bigdata-paristech-project-2014's Issues

Precisions sur la repartition des numeros de telephone

From: Guillaume Perrin-Houdon [email protected]
Date: 2015-01-19 19:33 GMT+01:00
Subject: Re: Projet : début du dataset

Nous travaillons sur le fichier de 1MB et allons travailler bientôt sur les 1Gb et 10GB.
Nous avons néanmoins une question structurante :

  • le fichier de 1MB présente beaucoup de numéros de téléphone, avec peu de relevés de position pour chacun.
    -> dans quel mesure est-ce que ce sera le cas pour les plus gros fichiers.
    -> Peut-on considérer qu’il y a un panel d’utilisateurs constant, que l’on suite dans le temps et dont la position est relevée régulièrement au cours du mois (a minima une centaine de relevés si on considère que les observations portent sur une période d’un mois).

En tentant d’extrapoler le ficher de 1Mo, nous avons quelques interrogations :

  • 1MO -> environ 17000 de relevés, pour 15600 numéros différents
  • en extrapolant : 100 Go donnerait 160 millions de relevé, ce qui nous semble faible pour 127 millions d’habitants.

Format de date des données

Je me pose une question sur le fichier de données réduit que vous nous avez communiqué : le séparateur décimal des secondes de la date est la virgule. Cela reflète-t-il bien ce que sera le fichier complet et définitif ?

Import des données en MongoDB

Nous avons finalement pu récupérer et prétraiter le fichier de 100 Go, et démarré l'import dans MongoDB. Problème : l'utilitaire mongoimport avale environ 1500 lignes/s, et il y en a 1.800.000.000 ! Y a-t-il moyen de traiter le fichier plus vite ? Sachant que nous avons mongoshell sur trois des noeuds, est-il par exemple possible (et cela irait-il plus vite) de paralléliser l'import sur ces trois noeuds, avec pour chacun un tiers du fichier ?

Gestion des noeuds du cluster

L'énoncé demande un cluster de 5 noeuds pour les données dans les 5 plus grandes villes du Japon, faut-il gère la possibilité que plus de 2 peuvent tomber avec un tremblement de terre. Tokyo, Yokohama, Nagoya et Osaka peuvent se retrouver dans la zone d'un rayon de 500km dont l'épicentre est dans le large, dans ce cas extreme 4 des noeuds tombent, il n'en reste qu'un seul.
Sommes nous obligés de garder ces 5 villes ? Doit-on rajouter des noeuds supplémentaires pour le cluster de données ?

Distribution du/des serveur(s) applicatif(s)

Bonjour,

L'énoncé indique que nous devons monter un cluster de données constitué de 5 noeuds.
La logique applicative doit-elle être elle aussi distribuée sur ce même cluster de 5 noeuds ? Ou pouvons-nous imaginer qu'il existe un "centre de contrôle" à l'abri des séisme et qui centralise la logique applicative (i.e un serveur EC2 à part qu'on ne va pas shutdown) ?

Merci !

Donnes d'entree pour le projet

Rajouter des précisions sur les données d’entrée pour le projet:

  • description des jeux de données
  • comment y acceder
  • restrictions d'access (region AWS + taille)

Impossible de télécharger les fichiers à partir d'Amazon :

2015-01-27 21:30 GMT+01:00 Christian:

Impossible de télécharger les fichiers à partir d4amazon :

ubuntu@ip-10-0-10-248:~$ aws s3 cp s3n://bigdata-paristech/projet2014/data/data_10GB.csv data_10GB.csv

usage: aws s3 cp or or
Error: Invalid argument type

Et lorsque je change s3n:// par s3:// j'obtiens une erreur 403

Gestion de Spark

Pour l'utilisation de Spark, qui a besoin d'un master, peut-on simuler que le master n'est pas au japon ?
Sinon comment gérer le besoin d'un noeud master dans le stack ?

Format du timestamp

La commande COPY ne semble pas importer correctement les données timestamp. Le problème se pose au niveau des millisecondes:

cqlsh> CREATE TABLE ks.sample3 ( time timestamp, station varchar, lat double, lon double, phone varchar, PRIMARY KEY (time, station, lat, lon));
cqlsh> COPY ks.sample3 FROM 'sample.csv' WITH DELIMITER=';';

code=2200 [Invalid query] message="unable to coerce '2015-01-18 09:19:16,888' to a formatted date (long)"
Aborting import at record #1. Previously-inserted values still present.
0 rows imported in 0.018 seconds.

Si j'enlève les millisecondes manuellement du .csv le COPY se fait correctement.

Comment faire en sorte que COPY accepte les millisecondes?
J'ai essayé sans succès de rajouter une ligne time_format à mon cqlshrc:
time_format = '%Y-%m-%d %H:%M:%f'
Y-a-t'il une erreur dans ce format?
comment faire?

Chargement CSV avant démonstration

Bonjour

Devons-nous considérer que l'insertion des données des fichiers CSV fait partie de la "démo" et que c'est donc à optimiser ou alors est-ce une étape préliminaire à avoir fait avant la démonstration?

Merci pour votre réponse!

Jeu de données projet Big Data

Bonjour,

j'aimerais avoir accès à des jeux de données plus importants (celui de 1m ne contient pas de doublon de n° de tél.)

Merci de votre aide.

Christian

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.