Giter Club home page Giter Club logo

geocodage-spd's Introduction

Scripts de géocodage des données du Service Public de la Donnée

Ces scripts s'appuient sur le moteur de géocodage addok développé par Etalab.

Pour obtenir une couverture maximale, deux instances d'addok sont utilisés, l'une s'appuyant sur la BAN (Base Adresse Nationale) elle même faisant partie du Service Public de la Donnée, la seconde sur la BANO (produite par OpenStreetMap France) afin de compléter la BAN en particulier sur les localisations des lieux-dits.

Pour accélérer le géocodage et tirer parti des multiples coeurs disponibles dans nos machines, le fichier national est découpé par département et chaque fichier départemental est géocodé en paralèlle.

Un script python assure le double géocodage et détermine la meilleure réponse. Il tente aussi de géocoder les différentes adresses et variantes des adresses présentes dans les fichiers d'origine.

Ce script est exécuté en paralèlle à l'aide de la commande GNU parallel.

SIRENE

A propos du géocodage de la base SIRENE

RNA

A propos du géocodage du RNA

geocodage-spd's People

Contributors

cquest avatar thomasg77 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

geocodage-spd's Issues

Communes avec arondissement SIRENE

Bonjour,

Merci beaucoup pour votre travail pour le geocoding de la base de données sirene.

J'ai remarqué des problèmes de gécodage sur les villes possédant des arrondissements dans la BDD SIRENE ( ex LYON 4EME, cf liste ci-dessous). Comme cette adresse :

siren nic siret statutDiffusionEtablissement dateCreationEtablissement trancheEffectifsEtablissement anneeEffectifsEtablissement activitePrincipaleRegistreMetiersEtablissement dateDernierTraitementEtablissement etablissementSiege nombrePeriodesEtablissement complementAdresseEtablissement numeroVoieEtablissement indiceRepetitionEtablissement typeVoieEtablissement libelleVoieEtablissement codePostalEtablissement libelleCommuneEtablissement libelleCommuneEtrangerEtablissement distributionSpecialeEtablissement codeCommuneEtablissement codeCedexEtablissement libelleCedexEtablissement codePaysEtrangerEtablissement libellePaysEtrangerEtablissement complementAdresse2Etablissement numeroVoie2Etablissement indiceRepetition2Etablissement typeVoie2Etablissement libelleVoie2Etablissement codePostal2Etablissement libelleCommune2Etablissement libelleCommuneEtranger2Etablissement distributionSpeciale2Etablissement codeCommune2Etablissement codeCedex2Etablissement libelleCedex2Etablissement codePaysEtranger2Etablissement libellePaysEtranger2Etablissement dateDebut etatAdministratifEtablissement enseigne1Etablissement enseigne2Etablissement enseigne3Etablissement denominationUsuelleEtablissement activitePrincipaleEtablissement nomenclatureActivitePrincipaleEtablissement caractereEmployeurEtablissement longitude latitude geo_score geo_type geo_adresse geo_id geo_ligne geo_l4 geo_l5
328691803 22 32869180300022 O 1992-01-20 NN 01/04/08 07:41 PM TRUE 3 8 RUE RIVET 69001 LYON 1ER 69381 2008-01-01 A 56.10A NAFRev2 N 4.8345478 45.7690471 0.7 poi.library Bibliothèque Municipale du 1er Arrondissement Lyon http://osm.org/way/84631232 G

Cela génère de nombreux regroupements d'adresse sur un même POI.

Le répo est-il encore actif ? Si oui, est-il possible de faire une PR ?

Voici la liste des villes impactées :

  • PARIS 16
  • MARSEILLE 3
  • MARSEILLE 14
  • MARSEILLE 10
  • MARSEILLE 5
  • PARIS 11
  • PARIS 9
  • PARIS 17
  • PARIS 15
  • MARSEILLE 1
  • PARIS 3
  • PARIS 5
  • PARIS 10
  • LYON 6EME
  • MARSEILLE 15
  • PARIS 8
  • PARIS 4
  • MARSEILLE 9
  • MARSEILLE 7
  • PARIS 1
  • MARSEILLE 11
  • LYON 3EME
  • MARSEILLE 16
  • MARSEILLE 2
  • LYON 4EME
  • PARIS 14
  • LYON 8EME
  • MARSEILLE 8
  • LYON 1ER
  • MARSEILLE 4
  • LYON 5EME
  • MARSEILLE 12
  • PARIS 20
  • LYON 9EME
  • PARIS 6
  • LYON 2EME
  • PARIS 19
  • PARIS 18
  • PARIS 7
  • MARSEILLE 6
  • PARIS 13
  • MARSEILLE 13
  • PARIS 12
  • PARIS 2
  • LYON 7EME

Plus de noms

Serait-il possible de conserver plus de nom en sortie.

Je ne suis pas sûr, mais je pense qu'il n'y a que le nom de l'établissement et pas de la société.

Question concernant l'identifiant adresse BAN / BANO

Bonjour Christian,

Mes félicitations pour le travail réalisé !
J'essaie actuellement d'exploiter la base SIRENE géocodée, et les identifiants BAN associés me facilitent grandement la tache.
La base comprend de nombreux identifiants d'adresses codés de cette manière 92012_0050_65e5ce. Dans mon référentiel BAN je n'ai uniquement des ID préfixés de ADRNIVX_.
Saurais-tu me dire ou je pourrais trouver le référentiel d'adresses sur ces ID.

Je te remercie par avance !

geocodage municipalité et correspondance nouveaux champs

Bonjour
J'y connais pas grand chose en code mais déjà merci pour le boulot de geocodage et decoupage du fichier siren.
J'ai téléchargé le fichier geo_siret 2020 et j'ai été étonnée d'avoir beaucoup de latitude longitude vide par rapport au fichier 2019.
Apres avoir comparé les 2 fichiers j'ai 2 remarques:
je pense qu'il doit y a voir un soucis avec la gestion du geocodage finale "centroide des municiaplités". Peut être ce changement est il volontaire.? Je pense que la colonne complementAdresseEtablissement sert à la recherche de la municipalité, alors que libelleCommuneEtablissement serait peut être plus intéressante car remplie systématiquement avec la commune.
Les abréviations "militaires" ont du mal a trouver une correspondance. Je ne sais pas ci cela peut se traiter dans un code de manière globale.
Ci joint des exemples d'adresses identiques écrites de plusieurs manières trouvées dans libelleVoieEtablissement de mon fichier.
DIM = D.I.M= Division d infanterie....
B C A = B.C.A = Bataillon chasseur alpin
RI = Regiment = regiment d'infanterie= R infanterie = R.I = R I
REI = R.E.I = reniement étranger d'infanterie

bien Cordialement

Fichier vide

Bonjour,

Cette page de data.gouv.fr renvoie vers ce fichier, qui est actuellement vide :

https://raw.githubusercontent.com/cquest/geocodage-spd/master/insee-sirene/cedex.csv

Problème avec le champ 'place'

Bonjour Christian,

Avant tout merci pour le script, tout fonctionne à merveille jusqu'au moment ou je dois executer la commande

wc -l sirene_*.csv | sort -n -r | grep ...csv -o | sed 's/.csv//' |
parallel -j 24 -t ./1b_sirene_geo.py sirene_{}.csv > sirene_{}.csv.log

En effet cela géolocalise bien certaines entreprises mais pas toute et j'ai une erreur récurrente qui est

File "./1b_sirene_geo.py", line 248, in
stats[source['properties']['type']]+=1
KeyError: 'place'

Auriez-vous une réponse à m'apporter ?

D'avance merci pour votre aide.

Données approximative pour très gros site industriel

Bonjour.
Tout d abord merci bcp pour tout votre aide et pour ces données SIREN géocodées.

J essai de voir si les coordonnées GPS sont fiables, et sur un département comme la Drôme (26) j'observe que la couverture entreprise est plutot réaliste dans son ensemble.
Toutefois, je regardé le géocodage des gros employeurs, et le numéro 5 du département, i.e. "Areva NC, Cite atomique, 26700 Pierrelate", n est pas positionné précisément (votre géocodage est sur le centre de la commune de Pierrelate alors que le site Areva se trouve réelement à l'exterieur de la ville à environ 7km (googlemaps est précis).
Est ce que cette approximation viens de l absence de numéro dans l'adresse?
Est-ce qu il n y a pas possibilité de faire plus précis?
Merci bcp.

Tets

Encodage des fichiers .csv : soucis d'import dans PostgreSQL

Bonjour !

En prenant l'ensemble des fichiers csv par département présents sur http://data.cquest.org/geo_sirene/v2019/last/dep/, je me suis fait mordre par PostgreSQL avec un :

value too long for type character varying(26)

En effet, j'ai repris la définition des variables présentes dans les fichiers CSV https://www.sirene.fr/sirene/public/static/liste-variables en créant un table PostgreSQL avec la bonne longueur des différents champs. Par exemple :

Puis en faisant un bête COPY CSV TO, j'ai eu des chaînes parfois plus longues. Deux exemples :

  • Département 33, POLYCLI BX NORD MED VASCULAIRE N°15A33 en tant que valeur de la variable complementAdresseEtablissement qui a donc ici une longueur 39 pour 38 attendue

  • Département 13, CENTRAIX ET N°2 AV DU 8 MA pour la valeur de la variable distributionSpecialeEtablissement

Je me demande si dans le filtre ou le découpage d'entités par département, y'aura pas un soucis d'encodage qui se glisse.

Pour l'instant, j'ai augmenté la taille de mes champs.

Merci,
Damien G.

Serveur BANO

Bonjour Christian,

Tout d'abord merci pour votre réponse à mon erreur. J'aurais une question cependant, auriez-vous un tuto ou un lien expliquant clairement la mise en place d'un serveur BAN/BANO car celui que j'ai mis en place sur mon serveur n'est pas très efficace et la géolocalisation des données n'est pas bonne, parfois il me fait une géolocalisation de la bonne adresse mais pas dans le bon département ! J

e m'interroge donc sur cette erreur, soit elle provient de mon BANO (probable) soit du script (mais ça me semble moins probable).

En revanche je n'ai pas essayer avec votre nouvelle version.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.