La pile de validation en 6 parties pour le S&E assisté par l'IA
Chaque produit de S&E assisté par l'IA doit passer six couches de validation. Si vous en sautez une, le mode de défaillance qu'elle est censée détecter devient invisible. Certaines couches sont déterministes (un script ou une liste de contrôle les vérifie). D'autres nécessitent un jugement humain. Concevez les six dès le départ, et non comme une course après coup lorsque le bailleur de fonds signale une erreur.
Validation structurelle
Le produit correspond-il au format attendu ? Bon schéma, bons champs, bons types de données, aucune section manquante. Un cadre logique a les quatre niveaux. Chaque indicateur a une ligne de base, une cible et des moyens de vérification. Un rapport inclut les sections requises pour ce modèle de bailleur de fonds. C'est la porte la moins chère et la plus facile à automatiser : un script ou une liste de contrôle d'une page peut la vérifier. La défaillance structurelle est le mode de défaillance de l'IA le plus courant et le plus évitable. Détectez-la ici et vous économiserez le cycle de révision.
Validation des sources
Chaque citation, référence et citation attribuée doit renvoyer à une source réelle. Les hallucinations de l'IA sont les plus dangereuses dans les produits riches en citations : rapports d'évaluation citant des études inexistantes, revues de politiques paraphrasant des articles avec des numéros de page erronés, notes d'information aux bailleurs de fonds attribuant des affirmations à un mauvais auteur. Vérifiez chaque source, surtout celles qui semblent trop commodes pour l'argument. Cette couche doit être manuelle et approfondie. Une citation fabriquée qui atteint un bailleur de fonds est un événement de crédibilité dont on ne se remet pas rapidement.
Validation factuelle
Les affirmations du produit sont-elles exactes ? Les chiffres s'additionnent, les pourcentages ne sont pas inversés, les dates sont correctes, les définitions correspondent à l'usage standard, les termes statistiques sont utilisés correctement. Les outils d'IA mélangent des concepts similaires (impact vs résultat, efficacité vs efficience), inversent les ratios et affirment avec confiance des choses légèrement erronées. Pour tout contenu quantitatif, vérifiez chaque chiffre par rapport aux données sources. Pour les affirmations qualitatives, vérifiez par rapport à votre base de preuves. Une statistique inversée dans un résumé exécutif peut saper un rapport entier.
Validation méthodologique
Le produit suit-il la méthode que vous avez déclaré utiliser ? Le codage thématique assisté par l'IA s'écarte de votre livre de codes s'il n'est pas vérifié. Le développement d'indicateurs assisté par l'IA mélange les conventions PIRS avec des définitions non standard. La triangulation assistée par l'IA saute l'étape des preuves disconfirmantes. Avant d'accepter tout produit assisté par l'IA, demandez-vous : un évaluateur senior lisant la section méthodologique reconnaîtrait-il ce travail comme suivant cette méthode ? Si non, le produit n'est pas valide, quelle que soit sa qualité de rédaction ou sa rapidité de production.
Validation par les parties prenantes
Le produit correspond-il à la réalité sur le terrain ? L'IA peut produire des résultats cohérents en interne mais qui divergent de ce que les participants ont réellement dit, de ce que les exécutants font réellement et de ce à quoi le programme ressemble réellement sur le terrain. C'est là que l'engagement avec les experts du domaine, les exécutants et (le cas échéant) les communautés est important. Pour les affirmations évaluatives, la question n'est pas « est-ce que cela semble juste » mais « les personnes les plus proches du programme reconnaîtraient-elles cela comme vrai ». Si personne n'a vérifié, vous avez un artefact soigné, pas une conclusion valide.
Validation de la reproductibilité
Quelqu'un d'autre peut-il exécuter le même processus et obtenir un résultat comparable ? Si la réponse est non, votre processus d'assurance qualité n'est pas vérifiable et vos conclusions ne sont pas défendables. La reproductibilité exige de documenter quel outil d'IA, quelle version de modèle, quelles invites, quelles entrées, quelles validations ont réussi, lesquelles ont échoué et ce qui a été corrigé. Ce n'est pas de la bureaucratie. C'est ce qui rend le S&E assisté par l'IA défendable lorsqu'un bailleur de fonds, un conseil d'administration, un examen éthique ou un futur évaluateur demande comment la conclusion a été produite.
L'assurance qualité en pratique
Trois scénarios montrant la différence entre un travail de S&E assisté par l'IA qui résiste à l'examen et un travail qui ne le fait pas.
Codage thématique assisté par l'IA
« Nous avons utilisé un outil d'IA pour coder 180 transcriptions d'entretiens. Il a terminé en deux heures. Nous avons accepté les thèmes principaux et rédigé le chapitre des conclusions. » Mais : personne n'a vérifié si les thèmes identifiés par l'IA correspondaient au livre de codes sur lequel l'équipe s'était mise d'accord. Deux thèmes ont été fusionnés alors qu'ils auraient dû rester séparés. Un thème est apparu qu'aucun codeur humain n'aurait identifié à partir des données. Le chapitre des conclusions contient maintenant une affirmation centrale qui n'est pas réellement étayée par les transcriptions. Lorsque le réviseur du bailleur de fonds demande la piste d'audit du codage, il n'y en a pas.
Codage thématique assisté par l'IA
« Nous avons utilisé l'IA pour faciliter le codage initial, validé le code complet par rapport au codage humain sur un échantillon de 20 % (84 % d'accord, désaccords examinés et résolus), vérifié chaque thème final par rapport aux extraits sources, fait vérifier la chaîne thème-conclusion par un deuxième réviseur, et documenté le flux de travail dans la section des méthodes. » Défendable, vérifiable, fondé sur les données, et le flux de travail est reproductible.
Rapport d'évaluation rédigé par l'IA
« L'IA a rédigé la section sur l'efficacité en 40 minutes. Nous avons édité pour le style et soumis. » Mais : trois études citées n'existent pas. Une statistique est inversée (rapportée comme 62 % alors qu'elle devrait être 26 %). La section méthodologique décrit une approche mixte qui n'a pas été réellement utilisée. Le réviseur du bailleur de fonds détecte les citations fabriquées, le rapport est retiré et l'équipe passe les trois semaines suivantes à reconstruire sa crédibilité.
Rapport d'évaluation rédigé par l'IA
L'IA a rédigé des sections du rapport. Avant l'assemblage final, l'équipe a validé chaque citation (deux n'ont pas été résolues et ont été remplacées par des sources réelles), a recoupé chaque chiffre avec les données sources (a trouvé et corrigé un ratio inversé), a fait examiner la section méthodologique par un responsable d'évaluation pour en vérifier la fidélité, et a documenté les sections ayant bénéficié de l'assistance de l'IA. Le rapport final a passé l'examen du bailleur de fonds dès la première soumission.
Cadre d'indicateurs généré par l'IA
« L'IA a généré le cadre d'indicateurs à partir de notre cadre logique en 15 minutes. » Mais : trois définitions d'indicateurs s'écartent des définitions standard du bailleur de fonds. Deux exigences de désagrégation requises par le modèle du bailleur de fonds sont manquantes. La colonne des moyens de vérification mélange des noms d'outils plausibles mais fabriqués. Le cadre échoue à l'examen du bailleur de fonds. La reprise prend plus de temps que la rédaction manuelle du cadre n'en aurait pris.
Cadre d'indicateurs généré par l'IA
« L'IA a généré un projet de cadre. Nous avons validé chaque définition d'indicateur par rapport au manuel du bailleur de fonds (détecté 3 écarts), recoupé les exigences de désagrégation par rapport au modèle standard (ajouté 2 catégories manquantes) et confirmé que chaque moyen de vérification était un outil réel dans notre plan de collecte de données. » L'IA a accéléré la rédaction d'environ 70 %. La validation par des experts a évité 5 erreurs qui auraient entraîné l'échec de l'examen du bailleur de fonds.
5 pratiques d'assurance qualité que chaque équipe de S&E devrait adopter
Petites étapes plutôt qu'un monolithe
Une grande invite d'IA cache les échecs derrière un mur de résultats. Divisez les tâches de S&E en petites étapes (extraire, vérifier, coder, valider) et vérifiez les résultats après chaque étape. Les échecs deviennent spécifiques et réparables. Une tâche d'extraction de preuves exécutée en cinq étapes vérifiées est bien plus fiable qu'une longue invite « tout faire ». Les invites courtes et à usage unique sont plus faciles à déboguer, plus faciles à valider et plus faciles à faire confiance.
Portes déterministes d'abord, portes de jugement ensuite
Automatisez ce que vous pouvez. La validation de schéma, les vérifications de format, la résolution d'URL de citation, la conformité du format de date et les vérifications de plage numérique peuvent toutes être scriptées ou capturées dans une liste de contrôle d'une page. Réservez l'attention humaine aux portes qui nécessitent réellement un jugement : ce thème correspond-il au livre de codes, cette conclusion correspond-elle aux preuves, cette recommandation découle-t-elle de l'analyse. Les humains sont coûteux ; utilisez leur attention là où elle compte.
Les pistes d'audit ne sont pas facultatives
Pour chaque produit de S&E assisté par l'IA, enregistrez le modèle, l'invite, l'entrée, la sortie et la validation appliquée. C'est la reproductibilité de base, et sans elle, votre travail assisté par l'IA n'est pas défendable lorsque quelqu'un demande comment la conclusion a été produite. Stockez les journaux d'audit à côté du produit, et non dans un système séparé que les gens oublient de vérifier. Si la piste d'audit est difficile à maintenir, l'outillage est incorrect.
Savoir où les humains sont obligatoires
Certaines étapes peuvent être assistées par l'IA et échantillonnées (par exemple, vérification ponctuelle de 10 % des transcriptions codées). Certaines étapes nécessitent un examen humain complet (par exemple, chaque citation sourcée dans un rapport publié). Certaines étapes ne doivent pas du tout être assistées par l'IA (par exemple, les jugements évaluatifs finaux sur l'efficacité du programme, les recommandations qui affectent le financement). Tracez les lignes avant le début du travail, et non pendant la précipitation lorsque la date limite est dans trois jours.
Adapter la profondeur de l'AQ aux enjeux du produit
Un premier brouillon de résumé interne bénéficie d'une AQ légère. Un rapport d'évaluation à mi-parcours pour un bailleur de fonds reçoit la pile de validation complète à six couches. Adaptez l'effort à la conséquence. Si le produit informe une décision de financement, une refonte de programme ou un rapport public, chaque couche s'applique. S'il s'agit d'un document de travail interne que personne ne citera, vous pouvez trier. L'erreur est d'appliquer la même profondeur d'AQ partout, ce qui soit gaspille des efforts sur un travail à faible enjeu, soit sous-valide un travail à fort enjeu.
Générateur de liste de contrôle AQ pour l'IA
Utilisez cette invite pour générer une liste de contrôle d'assurance qualité personnalisée pour une tâche de S&E spécifique assistée par l'IA. La liste de contrôle couvre les 6 couches de validation, indique ce qui doit être examiné par un humain par rapport à ce qui peut être automatisé, et met en évidence les modes de défaillance les plus probables pour ce type de tâche.
Invite pour la liste de contrôle AQ de l'IA en S&E
J'ai besoin que vous génériez une liste de contrôle d'assurance qualité pour une tâche de S&E spécifique assistée par l'IA. La liste de contrôle doit couvrir les 6 couches de validation et identifier les modes de défaillance les plus probables pour ce type de tâche.
Tâche : [DÉCRIRE : par exemple, « Codage thématique assisté par l'IA de 120 transcriptions de groupes de discussion pour une évaluation à mi-parcours »]
Contexte :
- Type de produit : [rapport d'évaluation / cadre d'indicateurs / ensemble de données codées / théorie du changement / note analytique / autre]
- Enjeux : [Faible : document de travail interne / Moyen : livrable pour l'équipe / Élevé : destiné aux bailleurs de fonds ou à la publication / Critique : informe les décisions de financement ou de programme]
- Outil d'IA : [ChatGPT / Claude / Gemini / personnalisé / pas encore sélectionné]
- Type de données : [texte anonymisé / texte identifiable / quantitatif / mixte / documents]
- Capacité de l'équipe pour l'examen : [Limitée : un réviseur / Standard : primaire + secondaire / Approfondie : examen par un panel complet]
Pour chacune des 6 couches de validation ci-dessous, fournissez :
1. Une liste de contrôle oui/non de 3-4 éléments spécifiques à cette tâche
2. Un mode de défaillance présentant le risque le plus élevé pour ce type de tâche
3. Si cette couche peut être automatisée, doit être examinée par un humain, ou nécessite les deux
4. Que faire si la vérification échoue
Couches :
1. Validation structurelle (schéma, format, exhaustivité)
2. Validation des sources (citations, références, attributions)
3. Validation factuelle (exactitude, chiffres, définitions)
4. Validation méthodologique (fidélité de la méthode, alignement du livre de codes)
5. Validation par les parties prenantes (vérité terrain, examen par des experts du domaine)
6. Validation de la reproductibilité (piste d'audit, capacité à être réexécutée)
Terminez par une séquence d'examen recommandée : quelles couches s'exécutent en parallèle, lesquelles sont séquentielles, et où se situent les points de décision pour arrêter ou retravailler. Formatez comme une liste de contrôle imprimable avec des cases à cocher.