Évaluation d'Impact : Mesurer l'Effet Causal des Programmes - Bibliothèque S&E

Quand l'Utiliser

L'évaluation d'impact est l'approche appropriée lorsque vous cherchez à déterminer si un programme a causé les changements observés dans les résultats, non seulement si les résultats se sont améliorés, mais surtout si cette amélioration est directement attribuable au programme. Cette démarche exige un niveau de rigueur élevé et un investissement substantiel dans la conception et la collecte de données. Elle est particulièrement pertinente dans les situations suivantes :

Les décisions de passage à l'échelle dépendent de preuves solides : les gouvernements ou bailleurs de fonds envisageant un déploiement à grande échelle ont besoin de preuves crédibles que le programme fonctionne avant de s'engager.
L'efficacité du programme est réellement incertaine : l'intervention repose sur une Théorie du Changement plausible mais n'a pas été rigoureusement testée dans ce contexte spécifique.
Il existe des approches alternatives en concurrence : comparer deux approches alternatives nécessite une conception comparative pour déterminer laquelle est la plus efficace.
Les exigences des bailleurs de fonds l'imposent : USAID, USDA et la Banque mondiale exigent de plus en plus des évaluations d'impact pour les programmes dépassant certains seuils, particulièrement dans les domaines de la sécurité alimentaire, de la santé et de l'agriculture.
Les enjeux sont considérables : les programmes qui affectent un grand nombre de personnes ou impliquent des ressources importantes méritent l'investissement dans une évaluation rigoureuse.

L'évaluation d'impact ne convient pas lorsque le programme est encore en phase de développement (privilégiez alors une évaluation formative), lorsque les résultats ne peuvent être mesurés dans le cadre temporel du programme, lorsqu'un contrefactuel ne peut être établi de manière éthique ou pratique, ou lorsque la question d'évaluation vise à comprendre comment les résultats se sont produits plutôt que de savoir si ils se sont produits (utilisez plutôt une analyse de contribution ou un traçage de processus).

Scénario	Évaluation d'impact pertinente ?	Alternative recommandée
Décision de passage à l'échelle pour un modèle éprouvé	Oui	-
Développement de programme en phase initiale	Non	Évaluation formative
Changement complexe impliquant de multiples acteurs	Non	Analyse de contribution
Comprendre le comment et le pourquoi du changement	Non	Traçage de processus
Impossibilité d'établir un contrefactuel	Non	Analyse de contribution
Exigences des bailleurs de fonds en matière de preuves d'attribution	Oui	-

Comment Cela Fonctionne

Toutes les évaluations d'impact s'articulent autour d'une idée centrale : le contrefactuel, c'est-à-dire ce qui se serait produit pour les participants du programme en l'absence de celui-ci. Puisqu'il est impossible d'observer les mêmes individus simultanément avec et sans le programme, on construit un groupe de comparaison qui représente au mieux ce contrefactuel.

Étape 1 : Planifier dès la phase de conception

Les évaluations d'impact doivent être planifiées impérativement avant le démarrage du programme. Une évaluation d'impact rétrospective est rarement jugée crédible. Les données de situation de référence doivent être impérativement recueillies avant le lancement du programme.

Étape 2 : Définir la question d'évaluation

Formulez avec précision le résultat que vous cherchez à mesurer, pour qui, sur quelle période et à quel niveau géographique. Des questions imprécises mènent à des évaluations peu concluantes.

Étape 3 : Choisir un plan

Le choix du plan méthodologique dépend de la faisabilité de l'affectation aléatoire :

Essai Contrôlé Randomisé (RCT) : les participants sont assignés aléatoirement au groupe de traitement ou au groupe de contrôle. C'est le standard d'or en matière de validité interne, mais il est coûteux et souvent difficile à mettre en œuvre pour des raisons éthiques.
Plans quasi-expérimentaux : lorsque la randomisation n'est pas envisageable : doubles différences, appariement par score de propension, discontinuité de régression ou séries temporelles interrompues. Pour plus de détails, consultez plan quasi-expérimental.

Étape 4 : Établir la situation de référence

Recueillez des données sur les résultats pour les groupes de traitement et de comparaison avant le début du programme. Cette étape est impérative. Les deux groupes doivent être comparables au moment de la situation de référence ; toute différence doit être documentée et prise en compte dans l'analyse.

Étape 5 : Mettre en œuvre avec intégrité d'évaluation

Assurez le suivi de la contamination (le groupe de comparaison accédant au programme), de l'attrition (perte de participants à l'étude) et de la fidélité de la mise en œuvre (le programme est-il délivré comme prévu ?). Ces menaces à la validité doivent être gérées avec rigueur tout au long de l'exécution.

Étape 6 : Recueillir les données de suivi et analyser

Recueillez des données de mi-parcours et de situation finale à des intervalles prédéfinis. Analysez les données en utilisant les méthodes statistiques appropriées au plan choisi. Rapportez l'ampleur de l'effet du traitement avec des intervalles de confiance, et non pas uniquement les tests de signification statistique.

Étape 7 : Interpréter et communiquer les résultats

Un effet statistiquement significatif ne doit pas être confondu avec un effet pratiquement significatif. Communiquez l'ampleur des effets dans un langage compréhensible pour les décideurs (changements absolus, pourcentages de variation, nombre de vies impactées), en complément de la signification statistique.

Composants Clés

Contrefactuel : un groupe de comparaison crédible qui représente ce qui se serait produit sans le programme.
Données de situation de référence : mesures des résultats avant l'intervention pour les deux groupes.
Indicateur de résultat principal : un ou deux résultats clés que l'évaluation est conçue pour détecter.
Calcul de la taille de l'échantillon : détermine le nombre de participants nécessaires pour détecter un effet d'une ampleur attendue.
Pré-enregistrement : enregistrement de la conception de l'évaluation, des hypothèses et du plan d'analyse avant la collecte de données (de plus en plus exigé par 3ie, J-PAL et les principaux bailleurs de fonds).
Données de suivi : mesures de mi-parcours et de situation finale à des intervalles prédéfinis.
Plan d'analyse : méthodes statistiques prédéfinies pour éviter la « pêche aux données » (data dredging).

Meilleures Pratiques

Prioriser la construction du contrefactuel. Toute la crédibilité d'une évaluation d'impact repose entièrement sur la qualité du groupe de comparaison. L'affectation aléatoire constitue le standard d'or ; lorsqu'elle n'est pas réalisable, il est crucial de documenter précisément les raisons et d'opter pour le meilleur plan quasi-expérimental disponible.

Exiger la collecte de données de situation de référence. Sans données de situation de référence, aucune évaluation d'impact n'est possible, mais seulement une comparaison avant-après, incapable d'exclure les tendances qui se seraient produites indépendamment du programme.

Dimensionner l'étude pour détecter des effets réalistes. Les études sous-dimensionnées produisent des résultats peu concluants, quelle que soit la qualité des autres aspects. Collaborez avec un statisticien pour calculer les tailles d'échantillon minimales nécessaires, en fonction des ampleurs d'effet attendues.

Utiliser des instruments de mesure identiques entre les groupes. Les outils et questions d'enquête doivent être rigoureusement identiques entre les groupes de traitement et de comparaison afin d'assurer une comparabilité optimale.

Pré-enregistrer la conception de l'évaluation. Le pré-enregistrement prévient la publication sélective de résultats positifs et renforce la crédibilité auprès des bailleurs de fonds et des décideurs. Le 3ie, l'AEA RCT Registry et le RIDIE sont des registres de référence.

Pièges Courants

Démarrer trop tard. Les évaluations d'impact conçues après le début de la mise en œuvre ne peuvent pas établir de situations de référence valides. L'échec de la planification prospective est l'erreur la plus fréquente et la plus coûteuse en évaluation d'impact.

Demander à l'évaluation d'impact de répondre à des questions de processus. Une évaluation d'impact indique si les résultats ont évolué. Elle ne vous expliquera pas le pourquoi, pour qui l'effet a varié, ni quels mécanismes l'ont généré. Associez-la à des méthodes qualitatives pour obtenir des éclairages sur les processus.

Négliger la qualité du groupe de comparaison. L'appariement par score de propension, la méthode des doubles différences et la discontinuité de régression reposent tous sur des hypothèses qui doivent être rigoureusement testées et documentées. Présenter des résultats quasi-expérimentaux sans discuter de la plausibilité des hypothèses de conception est trompeur.

Confondre signification statistique et succès du programme. Un effet statistiquement significatif d'une ampleur négligeable ne constitue pas un succès du programme. Il est essentiel de rapporter et d'interpréter l'ampleur des effets.

Négliger les résultats nuls. Les résultats nuls sont des informations précieuses. Une évaluation d'impact bien conduite qui ne révèle aucun effet constitue une preuve tout aussi précieuse. Omettre les résultats nuls revient à fausser la base de preuves.

Exemples

Moyens de subsistance agricoles, Afrique de l'Est. Un programme de sécurité alimentaire financé par l'USDA en Éthiopie a eu recours à un plan quasi-expérimental avec appariement par score de propension pour évaluer son impact sur la diversité alimentaire des ménages et leurs revenus. Des données de situation de référence ont été recueillies auprès de 3 000 ménages du groupe de traitement et de 2 400 ménages du groupe de comparaison apparié avant le démarrage du programme. Des enquêtes de mi-parcours et de situation finale ont permis de suivre les résultats sur une période de cinq ans. L'évaluation a révélé une amélioration de 0,8 écart-type dans les scores de diversité alimentaire des ménages du groupe de traitement par rapport au groupe de comparaison, attribuable au programme. L'effet était principalement observé dans les ménages dirigés par des femmes, ce qui a conduit à une révision de la conception pour le programme suivant.

Santé, Afrique de l'Ouest. Un programme de prévention du paludisme financé par l'USAID au Nigeria a eu recours à une conception d'essai randomisé par grappes, assignant aléatoirement 60 communautés au groupe de traitement (distribution gratuite de moustiquaires et visites de travailleurs de santé communautaire) ou au groupe de contrôle (moustiquaires gratuites uniquement). L'évaluation a montré que l'ajout des visites de travailleurs de santé communautaire a entraîné une augmentation de 23 points de pourcentage dans l'utilisation constante des moustiquaires par rapport à la distribution de moustiquaires seules, justifiant ainsi le coût additionnel de cette composante dans la planification du déploiement national.

Éducation, Asie du Sud. Un programme d'amélioration de l'apprentissage soutenu par la Banque mondiale au Pakistan a mis en œuvre une conception de discontinuité de régression, basée sur les classements des scores aux tests au niveau scolaire, pour évaluer l'impact sur la réussite des élèves. Les écoles se situant juste en dessous du seuil d'éligibilité ont été comparées à celles se trouvant juste au-dessus. L'évaluation a constaté une amélioration de 0,4 écart-type dans les scores de littératie chez les élèves de 3e année des écoles participant au programme, avec des effets plus marqués pour les filles et les écoles rurales.

Comparé à

Approche	Revendication causale	Contrefactuel	Approprié lorsque
Évaluation d'Impact	Effet attribuable	Explicite	Contrefactuel réalisable, décision de passage à l'échelle
Plan quasi-expérimental	Effet attribuable	Construit	Randomisation non réalisable
Analyse de contribution	Contribution plausible	Aucun	Changement complexe, multi-acteurs
Traçage de processus	Mécanisme causal	Aucun	Comprendre comment le changement s'est produit
Évaluation réaliste	Mécanismes contextuels	Partiel	Ce qui fonctionne, pour qui, et dans quelles circonstances

Indicateurs Pertinents

52 indicateurs alignés avec les exigences des bailleurs de fonds tels que USAID, DFID, Banque mondiale, 3ie, USDA et Global Fund. Exemples clés :

Changement attribuable net de l'indicateur de résultat principal entre la situation de référence et la situation finale (groupe de traitement vs. groupe de comparaison)
Ampleur de l'effet (d de Cohen ou différence de points de pourcentage) à l'achèvement du programme
Proportion des hypothèses d'évaluation confirmées ou infirmées
Score de fidélité pour la mise en œuvre du programme tel que conçu

Outils Connexes

Planificateur d'Évaluation : pour structurer la conception et le calendrier de votre évaluation dès le début du programme.
Bibliothèque d'Indicateurs : pour trouver des indicateurs de résultats alignés avec les exigences des bailleurs de fonds pour votre secteur.

Sujets Connexes

Plan quasi-expérimental : l'alternative la plus courante lorsque les RCT ne sont pas réalisables.
Analyse de contribution : pour les situations où un contrefactuel ne peut être établi.
Conception de la Situation de Référence : la collecte de données fondamentale sans laquelle aucune évaluation d'impact n'est possible.
Attribution vs. Contribution : comprendre la distinction entre l'évaluation d'impact et les affirmations de contribution.
Évaluation de Méthodes Mixtes : associer les estimations d'impact quantitatives à des éclairages qualitatifs sur les processus.