Les 6 actions qui rendent l'IA fiable pour le travail de S&E
Ce sont les pratiques qui distinguent l'IA que vous pouvez utiliser dans un travail de S&E sérieux de l'IA qui produit un bruit fluide. Aucune d'entre elles n'est difficile. Ce ne sont tout simplement pas des comportements par défaut, alors les équipes les ignorent et se demandent ensuite pourquoi les résultats ont été signalés lors de l'examen des donateurs.
Ancrer les résultats dans vos sources, pas dans la mémoire du modèle
La plupart des hallucinations proviennent du fait de demander au modèle de se souvenir de choses qu'il ne devrait pas rappeler. Citations, statistiques, définitions spécifiques aux donateurs, conventions d'indicateurs, détails du programme : tout cela devrait provenir du matériel que vous collez, et non de ce que le modèle a appris lors de sa formation. Structurez les instructions autour du texte source. « Codez les transcriptions ci-dessous en utilisant le livre de codes ci-dessous » est fiable. « Identifier les thèmes dans les données qualitatives de S&E » ne l'est pas. Plus l'instruction dépend des connaissances du modèle, plus vous avez de surface d'hallucination.
Utiliser des modèles locaux lorsque la sensibilité des données l'exige
L'IA basée sur le cloud est pratique et puissante. Elle envoie également vos données à des serveurs que vous ne pouvez pas entièrement voir ou auditer. Pour le travail de S&E impliquant des données de participants identifiables, un contexte de programme sensible ou des résultats confidentiels pour les donateurs, les modèles locaux modifient le profil de risque. Les modèles locaux s'exécutent sur votre propre machine ou sur l'infrastructure organisationnelle. Les données ne quittent jamais. Ils sont plus petits et parfois moins performants que les modèles cloud, mais le gain de confidentialité l'emporte sur la perte de capacité pour les travaux sensibles. La bonne approche est hybride : modèles locaux pour les données sensibles, cloud pour les travaux anonymisés ou destinés au public.
Placer le contrôle qualité entre les étapes, pas à la fin
Le schéma par défaut avec l'IA est de la laisser produire le résultat complet et de le réviser ensuite. C'est la manière la plus coûteuse de détecter les erreurs. Meilleur schéma : insérer une vérification après chaque étape significative. Après l'extraction, avant le codage. Après le codage, avant la synthèse. Après la synthèse, avant la rédaction. Lorsqu'une étape échoue, vous la détectez immédiatement, avant que l'erreur ne se propage. La révision au milieu semble plus lente ; elle est généralement plus rapide de bout en bout.
Savoir quel type de contrôle qualité convient au problème
Tous les contrôles qualité ne sont pas identiques. En général, trois familles couvrent la plupart des schémas pertinents pour le S&E. Les vérifications post-rédaction s'exécutent sur le résultat de l'IA pour tester s'il répond aux spécifications : validateurs de format, listes de contrôle d'exhaustivité, résolution de citations, détecteurs d'hallucinations. Les vérifications pré-production s'exécutent avant que quoi que ce soit ne soit finalisé : vérifications linguistiques, scans de PII, réduction de la redondance, vérifications de ton. Les vérifications de remplacement de brouillon produisent plusieurs variantes et sélectionnent la meilleure : tournois, méthodes de consensus, évaluation par modèle-juge. L'erreur est d'essayer d'utiliser une seule famille pour tout. Choisissez celle qui correspond au mode d'échec que vous essayez de prévenir.
Diviser les grandes tâches d'IA en petites tâches
Une seule instruction qui demande à l'IA de « lire ces 20 transcriptions, identifier les thèmes, les coder et rédiger la section des résultats » échouera de manière imprévisible. Le même travail décomposé en six ou sept instructions plus étroites, chacune faisant une seule chose, avec une vérification entre chaque, produit un résultat beaucoup plus fiable. L'IA devient moins performante à chaque tâche supplémentaire qu'elle doit gérer au sein d'une seule instruction. Chaque tâche que vous séparez est un mode d'échec que vous pouvez anticiper. Les instructions petites et à usage unique sont plus faciles à déboguer et plus faciles à faire confiance.
Exécuter les étapes critiques plusieurs fois pour la stabilité
Les résultats de l'IA sont probabilistes. Exécutez la même instruction trois fois avec la même entrée et vous obtiendrez trois résultats légèrement différents. Pour le travail de S&E où la stabilité est importante (thèmes de données qualitatives, définitions d'indicateurs, priorités de recommandations), exécutez l'étape importante deux ou trois fois et comparez. Là où les exécutions concordent, vous avez un résultat robuste. Là où elles divergent, vous avez quelque chose qui mérite d'être examiné plus attentivement. C'est peu coûteux, c'est rapide, et la plupart des équipes ne le font pas.
La fiabilité en pratique
Trois modes d'échec concrets et ce à quoi ressemble leur correction.
Citations hallucinées dans une section de rapport
L'IA, à qui l'on a demandé de « rédiger la section de revue de littérature pour ce rapport de S&E », produit un paragraphe fluide avec quatre citations académiques. Trois de ces citations n'existent pas. La quatrième est réelle mais le numéro de page est incorrect. Le brouillon semble soigné et confiant. Personne ne vérifie les citations avant que le rapport ne passe en revue interne. Le réviseur le détecte et l'équipe doit reconstruire la section sous la pression des délais.
Citations hallucinées dans une section de rapport
L'IA, à qui l'on a demandé de « rédiger la revue de littérature en utilisant uniquement la liste de sources jointe », produit un paragraphe tout aussi fluide. Chaque citation correspond à une source qui figure réellement dans la liste jointe. Le contrôle qualité confirme que chaque référence renvoie à un document réel. Le brouillon passe la révision sans problème car la surface d'hallucination a été fermée au niveau de l'instruction.
Données sensibles téléchargées vers l'IA basée sur le cloud
L'équipe a besoin d'un codage thématique rapide de 150 entretiens avec des informateurs clés pour une revue à mi-parcours. Sous la pression des délais, quelqu'un télécharge les transcriptions complètes (avec les noms des participants intacts) vers un chatbot IA commercial. Les données restent sur les serveurs de ce fournisseur indéfiniment. L'organisation ne peut pas auditer ce qui leur est arrivé. Lorsqu'un donateur pose des questions sur la gestion des données lors de la prochaine revue, l'équipe n'a pas de réponse défendable.
Données sensibles téléchargées vers l'IA basée sur le cloud
L'équipe effectue le codage initial sur un modèle d'IA local sur un ordinateur portable professionnel. Les transcriptions ne quittent jamais l'appareil. L'IA basée sur le cloud n'est utilisée que pour les tâches en aval où le contenu est anonymisé ou non sensible (rédaction d'un résumé destiné au public à partir d'extraits nettoyés). La gestion des données est auditable de bout en bout. La question du donateur a une réponse simple.
Thèmes uniques traités comme stables
L'équipe demande à l'IA de « générer des thèmes à partir de cet ensemble de données qualitatives ». Elle prend les thèmes de l'exécution unique et les utilise pour structurer le chapitre des résultats. Six semaines plus tard, quelqu'un exécute la même instruction avec les mêmes données et obtient un ensemble de thèmes différent. Les choix analytiques originaux reposent désormais sur un résultat qui s'est avéré instable, et cela n'a pas été documenté comme tel.
Thèmes uniques traités comme stables
L'équipe exécute la génération de thèmes trois fois. Compare les résultats. Ne retient que les thèmes qui sont apparus dans au moins deux des trois exécutions. Les thèmes instables sont signalés pour une révision manuelle. L'analyse finale est documentée avec une note sur la manière dont la stabilité a été évaluée. Lorsque quelqu'un réexécute plus tard, la méthodologie explique pourquoi les thèmes ont été maintenus.
5 pratiques de fiabilité qui s'accumulent avec le temps
Structurer les instructions autour du matériel source
Chaque instruction de S&E devrait commencer par la source (transcription, livre de codes, document, ensemble de données) et l'instruction devrait faire référence à cette source. « Extraire les thèmes des transcriptions ci-dessous » est préférable à « Identifier les thèmes communs dans les données qualitatives de S&E ». Les instructions qui dépendent des données d'entraînement du modèle sont des instructions qui hallucinent. Les instructions qui dépendent du matériel que vous fournissez sont des instructions qui ancrent.
Exécuter au moins une expérience sur un modèle local
Vous n'êtes pas obligé de vous engager avec des modèles locaux. Vous devriez au moins savoir ce qu'ils peuvent et ne peuvent pas faire. Un après-midi passé à exécuter un modèle local sur de vraies tâches de S&E vous apprend où le compromis confidentialité-capacité se fait réellement sentir pour votre travail. Sans cette expérience, les décisions concernant le cloud ou le local sont des suppositions.
Adapter la profondeur du CQ aux enjeux du résultat
Un mémo interne jetable n'a pas besoin de la pile complète de CQ. Une déclaration d'impact destinée aux donateurs, oui. Adaptez la profondeur du CQ à la conséquence du résultat. L'erreur est d'appliquer la même profondeur de CQ partout, ce qui soit gaspille des efforts sur des travaux à faible enjeu, soit sous-valide les travaux à enjeux élevés.
N'exécutez jamais une tâche IA importante une seule fois
Les exécutions de stabilité sont peu coûteuses. Si un résultat d'IA doit être cité, doit guider une décision ou doit parvenir à un donateur, exécutez l'étape critique au moins deux fois et vérifiez la concordance. Le coût est de quelques minutes. L'aperçu des parties du résultat qui sont stables par rapport à celles qui sont bruyantes est substantiel. Les équipes qui ne le font pas finissent par traiter les résultats probabilistes comme déterministes, ce qui est le chemin le plus rapide vers une erreur évitable.
Enregistrer ce que l'IA a réellement fait
Pour tout résultat assisté par l'IA qui sera utilisé, enregistrez le modèle, l'instruction, l'entrée, le résultat. Pas pour la conformité. Pour vous-même, trois mois plus tard, lorsque quelqu'un vous demandera comment vous avez produit le résultat et que vous devrez le reconstituer. Si vos outils rendent cet enregistrement difficile à conserver, les outils sont inappropriés.
Instruction d'audit de fiabilité de l'IA
Utilisez cette instruction pour auditer un résultat de S&E assisté par l'IA par rapport aux six dimensions de fiabilité. Elle signale les modes d'échec spécifiques à surveiller compte tenu de la tâche et des enjeux.
Instruction d'audit de fiabilité de l'IA pour le S&E
Je souhaite auditer la fiabilité d'un résultat de S&E assisté par l'IA avant de l'utiliser. Parcourez les six dimensions de fiabilité et signalez les risques spécifiques pour cette tâche.
Résultat audité :
- Tâche : [par exemple, « codage initial de 80 transcriptions de groupes de discussion » / « rédaction d'une revue de littérature » / « génération de définitions d'indicateurs »]
- Type de résultat : [ensemble de données codées / section de rapport / cadre / note analytique / autre]
- Enjeux : [Faible : mémo interne / Moyen : livrable pour l'équipe / Élevé : destiné aux donateurs ou publication / Critique : alimente une décision de financement ou de programme]
- Outil d'IA utilisé : [ChatGPT / Claude / Gemini / modèle local / autre]
- Sensibilité des données : [publiques / anonymisées / identifiables / confidentielles]
Pour chacune des six dimensions ci-dessous, produisez :
1. Le risque spécifique pour ce type de tâche (une phrase)
2. Une vérification concrète que l'équipe devrait effectuer
3. Un signal d'échec à rechercher (à quoi ressemble le problème lorsqu'il se produit)
Dimensions :
1. Ancrage aux sources (le résultat s'est-il appuyé sur la mémoire du modèle ou sur les sources fournies)
2. Choix du modèle approprié (le bon modèle a-t-il été utilisé pour cette sensibilité)
3. Placement du contrôle qualité (les vérifications ont-elles été effectuées entre les étapes ou seulement à la fin)
4. Adéquation de la famille de CQ (l'équipe a-t-elle utilisé le bon type de vérification pour le mode d'échec)
5. Portée de la tâche (l'IA a-t-elle été invitée à faire une seule chose ou plusieurs choses à la fois)
6. Stabilité (l'étape a-t-elle été exécutée plusieurs fois pour les résultats importants)
Terminez par un court verdict global de fiabilité : vert (publier), jaune (publier avec des réserves nommées), rouge (ne pas publier, corrections spécifiques nécessaires).