gip-inclusion / data-inclusion Goto Github PK

obj: dict = boto3_client.get_object(
	Bucket=os.environ['SCALEWAY_BUCKET'],
    Key=s3_filepath)

df = pd.read_excel(obj['Body'], dtype=str, engine='openpyxl')

Output

--> 516     self.handles.handle.seek(0)
    517     try:
    518         self.book = self.load_workbook(self.handles.handle)

UnsupportedOperation: seek

Ajouter un model listant les violations du schéma

Supprimer "sirétisées automatiquement" du README

Même si nous avons expérimenté la siretisation automatique, ce n'est pas une feature proposée systématiquement aux données en entrée.

Un jour peut-être !

Séparer l'exécution par source

Toutes les sources n'ont pas les mêmes contraintes en terme de fréquence d'exécution. Certaines sources ne changent pas (eg. odspep) et n'ont besoin d'être exécutée qu'une seule fois sur la dernière version des transformations.

Faire un graphique sur la distribution des thématiques ODSPEP

Lorsque les données seront en prod (semaine du 27 février)

À faire sur Grist, à présenter au rdv partenaires du jeudi.

Encapsuler l'environnement des tâches airflow

PythonVirtualenvOperator ou DockerOperator
https://airflow.apache.org/docs/apache-airflow/stable/best-practices.html#handling-conflicting-complex-python-dependencies

Créer un template de documentation pour l'opendata

Tester l'extraction d'informations via llm

Intégration des données des tableaux Grist dans le pipeline

Afin d’autonomiser les producteurs de données et passer moins de temps à traiter leurs données, nous leur mettons à disposition des tableaux Grist.

Il est temps d’importer ces tableaux dans notre base de données.

L'API Grist

Activer le backoff exponentiel et augmenter le nombre de retries

Actuellement, les tâches Airflow :

sont retentées deux fois avant d'être marquées comme "failed"
ces tentatives sont peu espacées

Source

Cette stratégie n'est pas optimale car les nouvelles tentatives ont peu de chance de réussir car trop rapprochées.

Je suggère donc :

qu'on active le backoff exponentiel en ajoutant la propriété retry_exponential_backoff = True
qu'on monte le nombre de nouvelles tentatives à 4

Améliorer la gestion des marts

différencier les tables utilisées par l'api et par l'outil de siretisation
utiliser les exposures de dbt ?

Définir une `target` pour prod et staging dans les profils dbt

profiles.yml

Spécifier le header `User-Agent` dans les requêtes

Plutôt en termes de bonnes pratiques

Principalement les requêtes d'extraction et de géocodage :

https://github.com/betagouv/data-inclusion/tree/main/pipeline/src/data_inclusion/scripts/tasks

Namespacer les modules dans `./dags/`

Par exemple:

./dags/settings.py -> ./dags/data_inclusion/settings.py

Ceci afin d'éviter les conflits d'import dans les dags.

Service dora manquant

Un service est présent dans Dora : https://api.dora.fabrique.social.gouv.fr/api/v1/services/a273c324-ef67-42f7-b2f0-a834405c711a/

Mais absent de nos données. Le soucis a été rapporté par mail par Collectif Emploi.

Lister les erreurs de validation en sortie

int__validated_services et int__validated_structures filtre déjà les lignes invalides. Il s'agit d'ajouter un ou plusieurs modèles pour lister les erreurs de validation.

Déployer un service `metabase` sur scaleway

Réutiliser le manifest dbt pour générer le dag d'execution `main`

Améliorer l'intégration avec metabase

le package dbt_metabase pourrait permettre de synchroniser les modèles (doc, nom, etc.) avec metabase
ajouter un service metabase pour le dév en local

Intégration de la source reseau-apha dans le pipeline

Les données du réseau alpha sont récupérées via un notebook qui exécute un script Scrapy.

Les données sont hébergées de manière statiques sur S3 (elles ne sont pas régulièrement mises à jour)

Déduplication des structures

Les données de la Base de Ressources Partenariale ODSPEP combinent structures et services : chaque ligne de la BRP contient à la fois les données du service et de la structure qui le propose.

Notre process doit donc :

1. répartir les données dans deux tables distinctes (structures, services)
2. maintenir le lien entre la structure et ses services
3. tester le lien structure/source pour toutes les sources (pas seulement odspep)
4. dédupliquer les services malgré l'absence d'identifiant de structure

Actuellement, 1. est OK, mais 2. n'est pas testé et 3. est à refaire.

DAG pour l'import des données INSEE COG

Nous dépendons à présent des données du COG de l'INSEE pour labelliser les données ODSPEP (services.zone_diffusion_nom).

Afin de faciliter l'import de ces données, une fois par an, nous avons besoin d'un DAG.

Enrichir les statistiques de consommation sur l'api

utiliser les URLs parameters ?
matomo ?

Automatiser la détection de régression dans les données

par exemple, une source n'est plus présente dans le jeu de données "final"

https://github.com/datafold/data-diff

Ajouter les données communes, départements et régions de l'INSEE comme seeds

seeds : https://docs.getdbt.com/docs/build/seeds

Ces données vont nous permettre de facilement labellisé les données géographiques pour lesquelles nous avons un code :

communes
départements
régions

Pour les autres nous devrons chercher ailleurs :

bassins
directions territoriales OFII

(après réflexion je vais plutôt rédiger mes issues en 🇫🇷 )

Les données prise_rdv de la médiation numérique n'atterrit pas dans notre Open Data

La médiation numérique rapporte qu’ils publient les informations de prise de RDV dans le jeu de données services qu’il publie sur data.gouv.fr : https://www.data.gouv.fr/fr/datasets/lieux-de-mediation-numerique-sur-le-territoire-national-fournis-par-conseiller-numerique-1/

Mais cette information ne se retrouve pas sur notre Open Data.

Envoi d'un message dans Mattermost en cas d'erreur Airflow

Pour qu'un email soit envoyé en cas d'échec dans n'importe quel DAG :

Mettre la variable d'environnement AIRFLOW__EMAIL__DEFAULT_EMAIL_ON_FAILURE sur True
(c'est aussi configurable tâche par tâche avec la propriété email_on_failure (booléen)
configurer l'envoi d'emails (SMTP)

sources / Intermediate

The sources step is partially implemented.

Either

I clean all the other tables first.
or I skip to intermediate and only clean in sources the data I need in intermediate

Clean is:

casting data to the right datatype
column names to snake case
date formatting
JSONB data extraction

Remember: all the data we deal with in dbt must be in an intermediate table, not in the source table.

Nettoyage des caractères inutiles dans les noms de structures

Exemples de noms de structures problématiques, qui peuvent potentiellement limiter le matching et la déduplication (les guillemets proviennent des données) :

"UTPAS DENAIN LOURCHES - Alloc mensuelle d'aide sociale à l'enfance ( AMASE) "
« les Filoux »
: Centre Hospitalier Saint-Amand-les-Eaux

Donc il faudrait :

supprimer les guillemets doubles et en chevron
supprimer certains signes de ponctuation en début et fin de champ
finir par un TRIM() pour les espaces

Tester l'extraction de données avec Airbyte

Add geographic availability to services

ODS PEP RES_PARTENARIALE table has a PERIMETRE_GEO_RSP column that indicates the range of the availability of the service. From the documentation:

0 - National
1 - Régional (liste des régions dans la table DD009_REGION_RESSOURCE)
2 - Direction territoriale OFII (liste des OFII dans la table DD009_DIR_TERRITORIALE_OFII)
3 - Département (liste des départements dans la table DD009_DEPARTEMENT_RESSOURCE)
4 - Bassin d'emploi (liste des bassins dans la table DD009_BASSIN_RESSOURCE)
5 - Commune (liste des communes dans la table DD009_COMMUNE_RESSOURCE)

Problem: the RES_PARTENARIALE doesn't mention directly the place that would map with zone_diffusion_code (commune, département, etc.) and zone_diffusion_nom, we must get it from the address of the structure.

To do:

a join with ADRESSE via the RES_PARTENARIALE.ID_ADR (in sources or intermediate?)
get the right place code/name depending on the value of PERIMETRE_GEO_RSP

Process ajout des sources Grist dans le pipeline

Ajout du document Grist dans /pipeline/settings.py

document Grist = source
table = stream
ajouter "origin": "grist"

Automatiser vacuum

Vérifier le status code de toutes les requetes d'extraction

datagouv nous a renvoyé une 500 sur un téléchargement du dataset hinaura, mais le résultat n'est pas vérifié et ne déclenche pas d'exception.

https://github.com/betagouv/data-inclusion/blob/bde490dcf2cb4abd919d43ee2587cac00f30ada1/pipeline/src/data_inclusion/scripts/tasks/mediation_numerique.py#L4

Il faudrait réutiliser ce snippet:

https://github.com/betagouv/data-inclusion/blob/bde490dcf2cb4abd919d43ee2587cac00f30ada1/pipeline/src/data_inclusion/scripts/tasks/dora.py#L11

Découper l'exécution par source

Découper notamment le dag main

e.g. pouvoir géocoder source par source

Ajouter un service dédié de validation/quality

Ajouter les métadonnées data_inclusion `_di_*` à l'api

Expérimenter openmetadata

https://github.com/open-metadata/OpenMetadata
alternative : https://github.com/datahub-project/datahub

Implémenter le déploiement sur un host

goal: staging pour commencer
créer un docker-compose dédié

Unifier la gestion des dépendances python

Permettre l'utilisation du templater `dbt` de sqlfluff

l'intégration simultanée de l'extension vscode et du precommit hook est assez laborieuse et ne permet pas à l'heure actuelle d'utiliser le templater dbt qui est évidemment le mieux adapté à notre usage.
il y a qqes problèmes de compatibilité entre les packages sqlfluff-dbt-templater et dbt à prendre en compte

Mapping champs ODSPEP 2023 <=> format intermédiaire

Les données ODSPEP sont converties au format data.inclusion à partir d'un format intermédiaire, une version normalisée de fichiers Excel envoyés en 2022.

Fichier Excel => format intermédiaire normalisé => data.inclusion

Afin de faciliter le chargement des données reçues en janvier 2023, nous convertissons ces données au même format normalisé. Ce format normalisé se compose de plusieurs fichiers :

ressources.csv
contacts.csv
familles.csv
horaires.csv
sous-categories.csv

Première étape : faire le mapping.

resources.csv

Champ cible	Champ source 2023	Commentaire
ID_RES	RES_PARTENARIALE.ID_RES
LIBELLE_SERVICE	RES_PARTENARIALE.LIBELLE_COURT_RSP
DESCRIPTION_SERVICE	RES_PARTENARIALE.SERVICE_DESCRIPTION_RSP
STRUCTURE	RES_PARTENARIALE.NOM_STRUCTURE_RSP
SERVICE_RSP	RES_PARTENARIALE.SERVICE_RSP
ID_ADR	RES_PARTENARIALE.ID_ADR
L1_IDENTIFICATION_DEST_ADR	ADRESSE.L1_IDENTIFICATION_DEST_ADR
L2_IDENTITE_DEST_ADR	ADRESSE.L2_IDENTITE_DEST_ADR
L4_NUMERO_LIB_VOIE_ADR	ADRESSE.L4_NUMERO_LIB_VOIE_ADR
L3_COMPLEMENT_ADR	ADRESSE.L3_COMPLEMENT_ADR
L5_MENTION_ADR	ADRESSE.L5_MENTION_ADR
L7_PAYS_ADR	ADRESSE.L7_PAYS_ADR
LATITUDE_ADR	ADRESSE.LATITUDE_ADR
LONGITUDE_ADR	ADRESSE.LONGITUDE_ADR
EST_NORMALISEE_ADR	ADRESSE.EST_NORMALISEE_ADR
CODE_COMMUNE_ADR	ADRESSE.CODE_COMMUNE_ADR
CODE_POSTAL_ADR	ADRESSE.CODE_POSTAL_ADR
LIBELLE_COMMUNE_ADR	ADRESSE.LIBELLE_COMMUNE_ADR
DATE DERNIERE MAJ	RES_PARTENARIALE.DATE_DERNIERE_MODIF_RSP

Tester chaque source

Définir la stratégie de tests pour ces sources

Script de scraping pour monenfant.fr

https://monenfant.fr/

gip-inclusion / data-inclusion Goto Github PK

data-inclusion's Issues

sources / Intermediate

resources.csv

Recommend Projects

Recommend Topics

Recommend Org