← Tous les projets
IG

IGAM

mission menée chez IOD Solutions

Data

Détection NLP non supervisée de sujets récurrents

NLPNon superviséML100 % solo

ARI 0.88

qualité clustering

F1 0.94

sur corpus labellisé

43 000

emails réels traités

Problème

Cartographier les sujets récurrents du flux d’emails entrant d’un cabinet de paie / gestion sociale, sans aucun jeu de labels existant.

Contrainte

Apprentissage non supervisé (aucune vérité terrain), données de paie ultra-sensibles (RGPD), et nécessité de passer à l’échelle.

Approche

  • Pipeline conçu seul de bout en bout : ingestion (Microsoft Graph API) → anonymisation RGPD → embeddings → clustering → nommage par LLM → dataviz.
  • Embeddings BGE-M3 auto-hébergés, réduction UMAP + clustering HDBSCAN, nommage des clusters par LLM.
  • Anonymisation Presidio + spaCy FR + détecteurs à checksum (NIR, IBAN, SIRET, CB).

Résultat

  • Qualité du modèle validée sur un corpus synthétique labellisé : ARI 0,88 / F1 0,94.
  • Passage à l’échelle sur ~43 000 emails réels, avec hiérarchie de thèmes macro → micro et exécutions reproductibles (caches disque).

Stack

BGE-M3UMAPHDBSCANspaCyPresidioMicrosoft Graph

Projet suivant

Valloire Habitat · Scoring immobilier territorial multi-sources