Giter Club home page Giter Club logo

ban-data's Introduction

👋 README

👋 Bienvenue

Bienvenue au sein de l'équipe Etalab. Tu trouveras dans cet espace les informations nécessaires à ton arrivée. C'est un document ouvert et collaboratif. N'hésite pas à proposer des améliorations !

Qu'est-ce-qu'Etalab ?

Tu es membre d’Etalab

Cet espace a été conçu pour toi. Depuis GitBook, tu peux utiliser la barre de recherche en haut à droite de ton écran pour faciliter ta navigation. Si tu ne trouves pas la ressource que tu cherches, tu peux poser la question dans la chaîne ~etalab-privé de notre espace Mattermost. Si tu repères une erreur, tu peux la corriger et contribuer à ce guide.

La documentation interne

Toute la documentation d'Etalab n'est pas publique. Si tu as accès au GitBook, tu peux consulter la documentation interne.

En attendant, tu peux voir ce que signifie

Contribuer à cette documentation

Pour éditer ce guide public tu peux apporter directement des modifications aux fichiers .md sur le dépôt etalab/etalab ou accéder à l'éditeur GitBook ici.

Le contenu de ce dépôt est publié sous licence Ouverte 2.0.

ban-data's People

Contributors

cquest avatar frodrigo avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ban-data's Issues

nom_voie anormalement long...

Il s'agit de nombreux noms de voies accolés...

cquest=# select code_insee,left(nom_voie,50), min(id), count(*) from ban_temp where length(nom_voie)>100 group by 1,2;
-
 code_insee |                        left                        |           min            | count 
------------|----------------------------------------------------|--------------------------|-------
 49099      | rue de la vendée (le puy-saint-bonnet)/rue de la v | ADRNIVX_0000000263772220 |    37
 91161      | avenue blaise pascal/avenue jean racine/avenue nic | ADRNIVX_0000000271308024 |    30
 55111      | chemin rural des paroches à saint-mihiel/cr des pa | ADRNIVX_0000000270651091 |     7
 59090      | domaine de la vigne/voie 1/voie 101/voie 102/voie  | ADRNIVX_0000000267781395 |   711
 59599      | le bois d'achelles/voie 35/voie 41/voie 414/voie 5 | ADRNIVX_0000000267759454 |   146
 59090      | bois d'achelles/voie 2/voie 201/voie 202/voie 211/ | ADRNIVX_0000000267768095 |   265
(6 rows)

Les noms des fichiers sont trompeurs (osm/licence ouverte)

Les noms utilisés pour les fichiers sont trompeurs:

adresses_licence_ouverte_2015-03-10_33.csv
et
adresses_osm_2015-03-10_33.csv

A remplacer par exemple par :
adresses_licence_ban_2015-03-10_33.csv
et
adresses_odbl_2015-03-10_33.csv

BAN - 76 - 20150411 - Codes Postaux pour Rouen 76540

Les Codes Postaux de Rouen sont 76000 et 76100.
La Rive Sud et l'ile Lacroix sont en 76100.

On peut visualiser qu'il y a notamment

  • un point en Rive Nord avec le code postal 76100
  • une série de 27 points en Rive Sud avec le code postal 76000 (Rue des Murs St Yon ?)
  • une série de 69 points en Rive Sud avec le code postal 76000 (Rue Desseaux ?)

76-20150411-76540-zip

Version de fichier FANTOIR

Quelle est la version du fichier FANTOIR utilisée ?
Des noms de voie datant de 2012 n'ont pas l'id_fantoir renseigné.

Adresse avec numéro de voie mais sans nom de voie

Exemple : Sur Le Mesnil-Esnard (76429)

Id Nom Fantoir Numéro Insee Zip
ADRNIVX_0000000325556247 (néant) 2250 9002 76429 76240
ADRNIVX_0000000325556248 (néant) 2250 9003 76429 76240
ADRNIVX_0000000272883852 (néant) 6101 11 76429 76240

Poilly-sur-Tholon - 89304 - Doublons apportés par la BAN

Bonjour,
Sur la commune de Poilly-sur-Tholon, un contributeur BAN a ajouté une nouvelle adresse : 5 route de Poilly.
Or, cette adresse existait déjà dans la base à une autre position géographique. Lorsqu'on fait la recherche du 5 route de poilly, on tombe d'ailleurs sur l'adresse issues de la base IGN.
Ceci créé donc un doublon sémantique.
Il serait intéressant de diffuser l'information qu'il faut faire attention de Modifier une données plutôt que de créer un doublon dans les cas où ce n'est pas nécessaire.
ban
ign

BAN - Ecart Code Postal / Code INSEE - adresse hors limite ?

Données BAN du 76 - 20150411

ADRNIVX_0000000272606969
4 impasse des trois fermes - 76430 Angerville-l'Orcher

L'adresse visible dans la capture d'écran ci-dessous est associée à 76014 Angerville-l'Orcher

  • C'est la seule dans cette commune à porter le code postal 76430.
  • Le point d'adresse semble hors commune.
  • Il y a à proximité immédiate des adresses d'Angerville-l'Orcher avec le Code Postal 76280

76-20150411-angerville-orcher-2015-04-21_12h52_04

Cependant au vue de la photo aérienne, on peut douter que le point soit au bon endroit ?
76-20150411-angerville-orcher-esri

NB : Selon le fichier des Codes Postaux sur data.gouv, il n'y a qu'un code postal à Angerville-l'Orcher , le 76280.

Données en ligne au 20150610 - doublons

Bonjour, je ne comprends pas pourquoi on peut avoir des triplons d'adresse identiques en tout point sauf l'id ! Pouvez-vous convenir que le plus petit des id doit seul perdurer.

Exemple (ça ne manque pas)

  • ADRNIVX_0000000312893409
  • ADRNIVX_0000000312893408
  • ADRNIVX_0000000312893407

DOM TOM en cours

Finalement on va livrer au plus tard demain matin mais sans le nom afnor et le libellé acheminement. On fera mieux pour la prochaine livraison dans une semaine. ce qui est une bonne nouvelle par contre c'est qu'on a monté un mécanisme pseudo industriel et non un truc sale à la main.

Problème de cohérence des codes FANTOIR

id_fantoir: la valeur indiquée est parfois incohérente

  • nom_voie (et nom_ld) vides
  • valeurs de nom_voie différentes

Exemple
code_insee | id_fantoir | nom_voie | nom_ld | alias | nb
33003 | 0024F | Rue Barrot | | | 4
33003 | 0024F | | | | 18
33003 | 0024F | Rue de Barot | | | 26
33003 | 0024F | Chemin de Bréchet | | | 1

FANTOIR indique "RUE DE BARROT"

BAN - 76 - 20150411 - Duplication d'adresses

L'extraction BAN du 76 en date du 20150411 compte 490.289 adresses possédant chacune un identifiant unique (id).

Si on aggrège code_post || '|' || nvl( numero || rep , '-') || '|' || nvl( nom_voie, nom_ld ) || '|' || nom_ld on trouve 14.153 valeurs distinctes présentes entre 2 et +40+ fois à l'identique.

Selon cet aggrégat, il y a 19.233 lignes en duplication, soit 3,9% des enregistrements.

numéro à 0

A quoi correspondent les adresses avec des numéros à 0 ?

nom_commune et nom_ld identiques

Dans la livraison initiale, 141729 adresses ont un nom_commune identique à nom_ld.

A remettre à vide dans les prochaines livraisons.

BAN 61 - 20150411- Noms de voies commençant par 'ch'

On trouve quelques enregistrements dans la BAN où le nom de voie débute par ch_espace_
61-20150411-ch

Quelques commentaires :

  • la première ligne est remarquable car on constate que la normalisation propose un libellé significativement différent de ce que le nom_voie comme le nom_ld peuvent suggérer
  • On notera les points d'adresses en 0 ou 5000
  • à Gacé le lieu-dit Chemin de la Cidrerie selon le libellé AFNOR est associé à 3 NOM_LD différents !
  • sur le chemin de la hervé, pourquoi une fois le lieu dit et une fois non ? Sinon parce que le Fantoir propose deux variantes (+/- Lieu-Dit) et donc deux codes pour un nom de voie identique ?

Changes in the Addok export

As discussed, those are some micro changes made on the fly by addok, doing them here would make the import in addok generic.

  • create the context key, by concatenating the department id, the department name (only if different from the city), the région name
  • replace "hamlet" and "place" types by "locality" (do we still want that? Not sure we are totally consistent on the type values actually)
  • when type is in ['village', 'town', 'city', 'commune', 'locality'], I've sometime noticed that the name can be empty, so I fallback on city in this case

Thanks :)

ID en doublons...

L'ID n'est pas unique ?

Nombre d'ID doublons identifiés par département dans la livraison du 20-03-2015 (départements 01 à 22)

dept | nb_id_doublons
------+----------------
01 | 5456
02 | 5961
03 | 1831
04 | 6977
05 | 1299
06 | 11321
07 | 6934
08 | 4811
09 | 3075
10 | 3952
11 | 5634
12 | 6591
13 | 22856
14 | 10150
15 | 1605
16 | 6494
17 | 9594
18 | 3142
19 | 5694
21 | 3374
22 | 15186
2A | 1188
2B | 2842

Et en nombre total d'adresses cela donne:

dept | total | id_distincts | doublons
------+--------+--------------+----------
01 | 287119 | 284372 | 2747
02 | 259637 | 256486 | 3151
03 | 192078 | 191142 | 936
04 | 108632 | 104997 | 3635
05 | 79047 | 78384 | 663
06 | 283452 | 277679 | 5773
07 | 204942 | 201350 | 3592
08 | 151926 | 149421 | 2505
09 | 117821 | 116270 | 1551
10 | 147923 | 145862 | 2061
11 | 276841 | 273985 | 2856
12 | 176393 | 173062 | 3331
13 | 614499 | 602669 | 11830
14 | 330885 | 325667 | 5218
15 | 98147 | 97319 | 828
16 | 219126 | 215879 | 3247
17 | 431909 | 426987 | 4922
18 | 188813 | 187208 | 1605
19 | 156178 | 153241 | 2937
21 | 220054 | 218367 | 1687
22 | 387521 | 379788 | 7733
2A | 60541 | 59862 | 679
2B | 72802 | 71126 | 1676

Valider les points d'adresse par vérification de la projection aux voies

Bonjour, je constate avec surprise que certaines adresses peuvent être portées sur une voie portant un autre nom que celui de l'adresse.

N'est-il pas possible de faire un contrôle qualité sur la cohérence de ces projections et soit marquer ces adresses d'un attribut "à contrôler" mise à dispo dans l'extraction soit renoncer à fournir des adresses très fausses ?

Exemple de la rue Jean Richard Bloch à Sotteville les Rouen où le 15 est projeté à distance sur la rue Saint-Yon !

nom_voie avec plusieurs noms

nom_voie comporte parfois plusieurs noms séparés par un '/'

Exemple: "Place du Président Doumer/Place Président Doumer"

Sur l'export "adresses_osm_2015-03-10_33.csv" à part 3 cas, le champ alias est laissé vide... pourquoi ne pas avoir reporté ce qui semble être un nom alternatif dans le champ alias ?

Si le cas est fréquent et systématique, il faudrait le documenter.

BAN - 76 - 20150411 - Codes Postaux pour Dieppe 76217

Historiquement Dieppe compte deux codes postaux suite à la fusion ancienne avec Neuville-lès-Dieppe.

La représentation des deux codes postaux laisse penser qu'il y a des erreurs.
Par exemple, la zone en bleu contient une rue affectée à l'autre code postal !

76-20150411-76217-zip

Adresses où NOM_VOIE = NOM_LD

(A la capitalisation près dans les fichiers,) qu'elle est la pertinence d'une adresse BAN où le nom de voie = le nom du lieu-dit ?

PS : A l'inverse que dire du cas terrain du 7 chemin des ondes à (76) Le Mesnil-Esnard qui comprend pas moins de 20 pavillons sous-numérotés en villa cézanne NN qu'on ne retrouve pas avec ce niveau de précision dans la BAN ?

Désabréviation problématique de "EN" en "Enceinte"...

Il semble que le préfixe "EN " ait été désabrégé en "Enceinte"

Ceci pose problème, par exemple pour des noms tels que: EN HAUT DE... EN BAS DE...

Exemples:
ADRNIVX_0000000281315003 | Enceinte Bastide | EN BASTIDE
ADRNIVX_0000000281382623 | Enceinte Bas du Village | EN BAS DU VILLAGE
ADRNIVX_0000000276040059 | Enceinte Bas des Vignes | EN BAS DES VIGNES
ADRNIVX_0000000276040060 | Enceinte Bas des Vignes | EN BAS DES VIGNES
ADRNIVX_0000000285583713 | Enceinte Basse Ruche | EN BASSE RUCHE

Doublons avec position identique

Sur le premier fichier de test, il y a 25359 doublons comportant le même X/Y.

Exemple:
33014_B035_41_C : 64 fois
33005_0682_54_ : 56 fois

BAN - 76 - 20150411 - Adresses manquantes sur 76229

Sur la carte ci-dessous on constate que le petit lotissement dorénavant bâti et habité n'est pas décrit dans la BAN. A dire vrai, pas facile de savoir comment cette courte voie s'appelle !

C'est un des défis que la BAN doit relever que d'être capable de fournir les adresses le + vite possible dans le cycle de vie.

76-20150411-mesnilesnard

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.