Comment nous Construisons des Pipelines

Par étapes, contrôlé, local d'abord.

Par étapes

Nous privilégions les étapes courtes. Chaque appel à l'IA correspond à une tâche simple, permettant d'identifier les erreurs à chaque phase plutôt que de les masquer dans un résultat final complexe.

Contrôlé

Des contrôles qualité rigoureux sont intégrés entre chaque étape. Les vérifications de schéma, les validateurs basés sur des règles et les juges évaluant selon une grille empêchent la propagation de résultats incorrects.

Local d'abord

Nous utilisons des modèles d'IA locaux pour traiter les données sensibles. Une désidentification déterministe est appliquée lorsque l'utilisation de modèles cloud est inévitable. C'est vous qui décidez où vos données sont traitées.

Approche par étapes : la composition de nos pipelines

Pour chaque pipeline, nous prenons quatre décisions clés : identifier les étapes déterministes et celles nécessitant l'IA, définir la 'température' d'exécution de chaque étape, déterminer la méthode de découpage des entrées, et choisir le modèle d'organisation des étapes.

Nœuds basés sur des règles quand nous le pouvons, nœuds d'IA quand nous le devons

Les nœuds basés sur des règles exécutent des tâches qui ne requièrent pas d'intelligence artificielle. Leur exécution est gratuite et leurs échecs sont prévisibles. Les nœuds d'IA sont réservés aux tâches nécessitant un jugement ou une génération. Un pipeline est d'autant plus économique qu'il minimise les appels à l'IA. Avant d'intégrer un nœud d'IA, nous évaluons systématiquement si un nœud basé sur des règles peut accomplir la tâche. C'est souvent le cas.

Basé sur des règles (pas d'IA)

  • Acheminer un enregistrement vers l'étape suivante appropriée en fonction d'une valeur de champ
  • Valider qu'une date est analysable et qu'un champ numérique respecte les limites définies
  • Convertir des données entre les formats JSON et CSV, ou entre différents modèles de donateurs
  • Vérifier qu'un champ obligatoire n'est pas vide
  • Désidentifier les champs avant que les données ne quittent votre infrastructure

Nécessite l'IA

  • Interpréter une réponse ouverte d'enquête
  • Résumer un document long en réponse à une question spécifique
  • Appliquer un codebook à la transcription d'un entretien
  • Rédiger un paragraphe narratif à partir de données structurées
  • Évaluer un résultat selon une grille de qualité

Discipline de la température

La température régule le degré d'aléatoire introduit par un modèle. Ajuster cette température à la tâche est essentiel pour garantir la fiabilité des résultats à chaque étape. Il ne s'agit pas d'une question de style : des températures basses réduisent les 'hallucinations' lors de l'extraction, tandis que des températures plus élevées améliorent la qualité rédactionnelle.

PhaseTempératurePourquoi
Extraction et analyse0.0 – 0.2Même entrée, même sortie. Risque d'hallucination le plus faible.
Rédaction0.3 – 0.4Le langage a besoin de variation pour ne pas paraître formaté.
Polissage et jugement0.0 – 0.1La cohérence est plus importante que la créativité.

Découpage des entrées volumineuses

Les documents longs ne sont pas insérés dans une seule invite. Un rapport d'évaluation de 40 pages, un manuel de donateur de cent pages, un ensemble de données d'enquête de mille lignes : chacun est divisé en morceaux adaptés à la tâche, traités en parallèle, puis fusionnés.

Trois raisons justifient cette approche. Premièrement, les fenêtres de contexte ont un coût : des entrées plus volumineuses entraînent des coûts plus élevés et des temps d'exécution plus lents. Deuxièmement, la capacité d'attention du modèle diminue avec la longueur, rendant les détails situés au milieu d'une longue invite plus susceptibles d'être ignorés. Enfin, le traitement parallèle par morceaux peut réduire une exécution d'une heure en une seule invite à quelques minutes de travail simultané.

La façon dont nous découpons dépend de la tâche : limites sémantiques pour les documents, groupes de lignes pour les tableaux, tours de parole pour les entretiens.

Topologie des pipelines

Six modèles principaux couvrent la majorité des topologies de pipelines que nous concevons. La plupart des pipelines de production en combinent plusieurs : une structure hiérarchique globale, des boucles qualité itératives pour les étapes créatives, une sélection par tournoi lorsque la qualité des variantes est variable, et un routage conditionnel pour les entrées mixtes nécessitant des traitements distincts.

Six pipeline patterns

ABC

Linear

Steps run one after another. Used when each step builds on the output of the previous one, like extract, then code, then summarize.

AB1B2B3C

Parallel (fan-out / fan-in)

One input splits into concurrent branches that rejoin. Used when a document needs multiple independent analyses at once, like extracting themes and flagging risks in the same pass.

AB1B2C1C2D

Hierarchical

A multi-section output built by running a sub-pipeline per section, then assembled. Used for long documents like evaluation reports with distinct chapters.

ABJretry

Iterative

A step runs, a judge scores it, and if quality is low the step re-runs with feedback. Capped at three loops. Used when outputs need iterative polish, like narrative drafting.

AV1V2V3J

Tournament

Multiple variants of the same step run in parallel, a judge picks the best. Used for creative work where variant quality varies, like drafting a recommendation paragraph.

A?B1B2C1C2

Conditional

A router sends each item down the right branch based on its characteristics. Used when the same pipeline handles mixed inputs, like routing transcripts one way and reports another.

A = input · B/C/D = processing steps · V = variant · J = judge · ◆ = router

Contrôlé : assurance qualité à chaque jonction

Chaque étape franchit un contrôle qualité avant que la suivante ne s'exécute. En cas d'échec, la tâche est automatiquement dirigée vers une révision humaine, avec la raison de l'échec clairement indiquée. Le pipeline ne progresse jamais en silence avec des résultats non conformes.

Validateurs de schéma

Confirment que la sortie a la bonne forme : champs obligatoires, types corrects, formats valides. Déterministe, coût nul, s'exécute en millisecondes.

Vérifications basées sur des règles

Appliquent la logique métier : plages numériques, valeurs d'énumération, contraintes inter-champs. Également déterministes, également à coût nul.

Juges basés sur une grille d'évaluation

Utilisent un modèle d'IA pour évaluer le résultat en fonction d'une grille de critères spécifiques. Cette méthode est employée lorsque la qualité doit être jugée subjectivement, comme le ferait un humain.

Tournois de variantes

Génèrent plusieurs candidats pour la même étape, puis un juge sélectionne le meilleur. Utilisé lorsque la qualité des variantes varie et que la meilleure vaut le coût supplémentaire.

Nos pipelines fixent un seuil de réussite de 0,85 pour les résultats évalués par grille. Tout score inférieur déclenche une révision humaine. Les vérifications de schéma et basées sur des règles fonctionnent sur un mode binaire : succès ou échec.

Voir comment fonctionne chaque méthode d'assurance qualité

Local d'abord : gestion des données sensibles

Tous les pipelines ne peuvent pas fonctionner sur des modèles d'IA locaux, et tous les pipelines n'en ont pas besoin. La décision dépend des données impliquées. Nous utilisons une échelle de décision à trois niveaux.

Which data goes where

1

Identifiable + sensitive

Interview transcripts, health records, household rosters

Local models only

2

Sensitive but de-identifiable

Survey data with personal fields, beneficiary tracking

Deterministic anonymization, then cloud

3

Public or depersonalized

Reports, indicator data, donor guidance, operational metadata

Cloud models directly

Chaque pipeline enregistre le niveau d'exécution de chaque étape, la version du modèle utilisé et les transformations appliquées. Vous disposez ainsi d'une traçabilité complète sur le parcours et le traitement de vos données.

Voir l'approche complète en matière de confidentialité des données

Discuter d'un projet pilote

Indiquez-nous la tâche de données S&E, le volume et le profil de sensibilité. Nous définirons un projet pilote adapté.