Skip to content

Conversation

@imanuch
Copy link
Contributor

@imanuch imanuch commented Jan 16, 2026

Summary

  • Corrige les titulaires manquants lors du traitement des données scrappées de marches-publics.info (AWS)
  • Corrige les codes département mal formatés (ex: "006" → "06")

Détails

Problème 1 : Titulaires manquants (AWS)

Les données AWS utilisent un format hybride :

  • Enveloppe JSON format 2022 (marches.marche)
  • Titulaires format 2019 (pas de clé titulaire imbriquée)

Le code détectait le format 2022 et cherchait titulaires[].titulaire.id, mais les données avaient directement titulaires[].id.

Solution :

  • norm_titulaire() normalise maintenant vers le format cible (2019 ou 2022)
  • clean_titulaires() détecte dynamiquement le format des titulaires dans le schéma

Problème 2 : Codes département mal formatés

Certains codes département sont sur 3 chiffres avec un zéro devant (ex: "006" au lieu de "06").

Solution :

  • Ajout de clean_lieu_execution_code() qui supprime le zéro initial
  • Les codes DOM-TOM (971, 972, etc.) sont préservés

Test plan

  • Test unitaire de norm_titulaire() avec données AWS réelles
  • Test de clean_lieu_execution_code() avec différents cas (006, 972, 69M, 2A)

…rmatés

- Normalisation des titulaires vers le format cible (2019 ou 2022) lors du parsing
- Les données AWS utilisent une enveloppe format 2022 mais des titulaires format 2019
- Détection dynamique du format des titulaires dans clean_titulaires()
- Correction des codes département sur 3 chiffres (ex: "006" -> "06")
- Préservation des codes DOM-TOM légitimes (971, 972, etc.)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

Status: Backlog

Development

Successfully merging this pull request may close these issues.

1 participant