Évaluation d'Impact - Bibliothèque S&E

Quand Utiliser

L'évaluation d'impact est la bonne approche lorsque vous devez savoir si un programme a causé les changements observés dans les résultats — pas seulement si les résultats se sont améliorés, mais si l'amélioration est due au programme. C'est un barème élevé qui nécessite un investissement substantiel dans la conception et la collecte de données. Utilisez-le lorsque :

Les décisions d'échelle dépendent des preuves — les gouvernements ou bailleurs envisageant un déploiement à grande échelle ont besoin de preuves crédibles que le programme fonctionne avant de s'engager
L'efficacité du programme est véritablement incertaine — l'intervention a une théorie du changement plausible mais n'a pas été rigoureusement testée dans ce contexte
Il existe une concurrence politique — comparer deux approches alternatives nécessite une conception comparative pour déterminer laquelle est plus efficace
Les exigences des bailleurs l'imposent — USAID, USDA et la Banque mondiale exigent de plus en plus des évaluations d'impact pour les programmes au-dessus de certains seuils, particulièrement pour la sécurité alimentaire, la santé et l'agriculture
Les enjeux sont élevés — les programmes qui affectent un grand nombre de personnes ou impliquent des ressources importantes méritent l'investissement dans une évaluation rigoureuse

L'évaluation d'impact n'est pas appropriée lorsque le programme est encore en cours de développement (utilisez une évaluation formative d'abord), lorsque les résultats ne peuvent pas être mesurés dans le calendrier du programme, lorsqu'un contrefactuel ne peut pas être construit éthiquement ou pratiquement, ou lorsque la question d'évaluation porte sur comment les résultats se sont produits plutôt que si ils l'ont fait (utilisez analyse de contribution ou traçage de processus à la place).

Scénario	Utiliser l'évaluation d'impact ?	Meilleure alternative
Décision d'échelle pour un modèle éprouvé	Oui	—
Développement de programme à un stade précoce	Non	Évaluation formative
Changement complexe multi-acteurs	Non	Analyse de contribution
Comment et pourquoi le changement s'est produit	Non	Traçage de processus
Aucun contrefactuel possible	Non	Analyse de contribution
Mandats des bailleurs exigent des preuves d'attribution	Oui	—

Comment Cela Fonctionne

Toutes les évaluations d'impact reposent sur une idée centrale : le contrefactuel — ce qui serait arrivé aux participants du programme en l'absence du programme. Puisque vous ne pouvez pas observer les mêmes personnes à la fois avec et sans le programme, vous construisez un groupe de comparaison qui approxime ce contrefactuel.

Étape 1 : Planifier au stade de la conception

Les évaluations d'impact doivent être planifiées avant le début du programme. L'évaluation d'impact rétrospective est rarement crédible. Les données de situation de référence doivent être collectées avant le début du programme.

Étape 2 : Définir la question d'évaluation

Énoncez précisément quel résultat vous essayez de mesurer, pour qui, sur quelle période, et à quel niveau géographique. Les questions vagues produisent des évaluations inconclusives.

Étape 3 : Choisir un plan

Le choix du plan dépend de savoir si l'affectation aléatoire est réalisable :

Essai Contrôlé Randomisé (RCT) — les participants sont assignés aléatoirement au traitement ou au contrôle. Standard d'or pour la validité interne mais coûteux et souvent éthiquement difficile
Plans quasi-expérimentaux — lorsque la randomisation n'est pas possible : différence de différences, appariement par score de propension, discontinuité de régression, ou séries temporelles interrompues. Voir plan quasi-expérimental pour les détails

Étape 4 : Établir la situation de référence

Collecter des données sur les résultats pour les deux groupes de traitement et de comparaison avant le début du programme. C'est non négociable. Les deux groupes doivent être comparables à la situation de référence — toute différence doit être documentée et contrôlée dans l'analyse.

Étape 5 : Mettre en œuvre avec intégrité d'évaluation

Surveiller la contamination (groupe de comparaison accédant au programme), l'attrition (perte de participants à l'étude), et la fidélité du plan (programme livré comme prévu). Ces menaces à la validité doivent être gérées tout au long de la mise en œuvre.

Étape 6 : Collecter les données de suivi et analyser

Collecter des données de mi-ligne et de situation finale à des intervalles pré-spécifiés. Analyser en utilisant les méthodes statistiques appropriées pour le plan choisi. Signaler la taille de l'effet de traitement avec des intervalles de confiance, pas seulement les tests de signification.

Étape 7 : Interpréter et communiquer les résultats

Un effet statistiquement significatif n'est pas la même chose qu'un effet pratiquement significatif. Signaler les tailles d'effet en termes que les décideurs comprennent (changements absolus, pourcentages de changement, vies affectées) à côté de la signification statistique.

Composants Clés

Contrefactuel — un groupe de comparaison crédible qui approxime ce qui serait arrivé sans le programme
Données de situation de référence — mesures de résultats pré-intervention pour les deux groupes
Indicateur de résultat principal — un ou deux résultats clés que l'évaluation est capable de détecter
Calcul de la taille de l'échantillon — détermine combien de participants sont nécessaires pour détecter un effet d'une magnitude attendue
Pré-enregistrement — enregistrer la conception de l'évaluation, les hypothèses et le plan d'analyse avant la collecte de données (de plus en plus exigé par 3ie, J-PAL et les principaux bailleurs)
Données de suivi — mesures de mi-ligne et de situation finale à des intervalles pré-spécifiés
Plan d'analyse — méthodes statistiques pré-spécifiées pour éviter la pêche aux données

Meilleures Pratiques

S'engager vers le contrefactuel. Toute la crédibilité d'une évaluation d'impact dépend de la qualité du groupe de comparaison. L'affectation aléatoire est le standard d'or ; lorsqu'elle n'est pas réalisable, documenter soigneusement pourquoi et utiliser le meilleur plan quasi-expérimental disponible.

Exiger la collecte de données de situation de référence. Aucune situation de référence signifie aucune évaluation d'impact — seulement une comparaison avant-après, qui ne peut pas exclure les tendances qui se seraient produites de toute façon.

Alimenter l'étude pour détecter des effets réalistes. Les études sous-alimentées produisent des résultats inconclusifs peu importe comment tout le reste est fait. Travailler avec un statisticien pour calculer les tailles d'échantillon minimales basées sur les tailles d'effet attendues.

Utiliser les mêmes instruments entre les groupes. Les outils et questions d'enquête doivent être identiques entre les groupes de traitement et de comparaison pour assurer la comparabilité.

Pré-enregistrer la conception. Le pré-enregistrement empêche la sélection de rapports de résultats positifs et construit la crédibilité auprès des bailleurs et des décideurs. 3ie, AEA RCT Registry et RIDIE sont les principaux registres.

Erreurs Courantes

Commencer trop tard. Les évaluations d'impact conçues après le début de la mise en œuvre ne peuvent pas établir de situations de référence valides. L'erreur la plus courante et la plus coûteuse en évaluation d'impact est l'échec de planifier de manière prospective.

Demander à l'évaluation d'impact de répondre aux questions de processus. Une évaluation d'impact vous dit si les résultats ont changé. Elle ne vous dira pas pourquoi, pour qui l'effet a varié, ou quels mécanismes l'ont produit. L'associer avec des méthodes qualitatives pour les aperçus de processus.

Attention inadéquate à la qualité du groupe de comparaison. L'appariement par score de propension, la différence de différences et la discontinuité de régression dépendent tous d'hypothèses qui doivent être testées et rapportées. Présenter des résultats quasi-expérimentaux sans discuter de la plausibilité des hypothèses de conception est trompeur.

Confondre la signification statistique avec le succès du programme. Un effet statistiquement significatif de magnitude négligeable n'est pas un succès du programme. Signaler et interpréter les tailles d'effet.

Négliger les résultats négatifs. Les résultats nuls sont des informations. Une évaluation d'impact bien menée qui ne trouve aucun effet est une preuve précieuse. Supprimer les résultats nuls et vous déformez la base de preuves.

Exemples

Moyens de subsistance agricoles, Afrique de l'Est. Un programme de sécurité alimentaire financé par l'USDA en Éthiopie a utilisé un plan quasi-expérimental avec appariement par score de propension pour évaluer l'impact sur la diversité alimentaire des ménages et les revenus. Les données de situation de référence ont été collectées pour 3 000 ménages de traitement et 2 400 ménages de comparaison appariés avant le début du programme. Les enquêtes de mi-ligne et de situation finale ont suivi les résultats sur cinq ans. L'évaluation a trouvé une amélioration de 0,8 déviation standard dans les scores de diversité alimentaire dans les ménages de traitement par rapport à la comparaison, attribuée au programme. L'effet était concentré dans les ménages dirigés par des femmes, incitant à une révision de la conception pour le programme de suivi.

Santé, Afrique de l'Ouest. Un programme de prévention du paludisme financé par l'USAID au Nigeria a utilisé une conception d'essai randomisé par cluster, randomisant 60 communautés au traitement (distribution gratuite de moustiquaires plus visites de travailleurs de santé communautaire) ou au contrôle (moustiquaires gratuites uniquement). L'évaluation a trouvé que l'ajout de visites de travailleurs de santé communautaire a produit une augmentation de 23 points de pourcentage dans l'utilisation constante de moustiquaires par rapport aux moustiquaires seules, justifiant le coût supplémentaire du composant travailleur de santé communautaire dans la planification du déploiement national.

Éducation, Asie du Sud. Un programme d'amélioration de l'apprentissage soutenu par la Banque mondiale au Pakistan a utilisé une conception de discontinuité de régression basée sur les classements de scores de test au niveau de l'école pour évaluer l'impact sur la réalisation des élèves. Les écoles juste en dessous du seuil d'éligibilité ont été comparées aux écoles juste au-dessus. L'évaluation a trouvé une amélioration de 0,4 déviation standard dans les scores de littératie parmi les élèves de 3e année dans les écoles du programme, avec des effets plus grands pour les filles et les écoles rurales.

Comparé à

Approche	Revendication causale	Contrefactuel	Approprié lorsque
Évaluation d'Impact	Effet attribuable	Explicite	Contrefactuel faisable, décision d'échelle
Plan quasi-expérimental	Effet attribuable	Construit	Randomisation non faisable
Analyse de contribution	Contribution plausible	Aucun	Changement complexe, multi-acteurs
Traçage de processus	Mécanisme causal	Aucun	Comprendre comment le changement s'est produit
Évaluation réaliste	Mécanismes contextuels	Partiel	Ce qui fonctionne, pour qui

Indicateurs Pertinents

52 indicateurs alignés sur les bailleurs à travers USAID, DFID, Banque mondiale, 3ie, USDA et Global Fund. Exemples clés :

Changement attribuable net dans le résultat principal entre la situation de référence et la situation finale (traitement vs. comparaison)
Taille de l'effet (Cohen's d ou différence de points de pourcentage) à la fin du programme
Proportion des hypothèses d'évaluation confirmées versus infirmées
Score de fidélité pour la mise en œuvre du programme comme conçu

Outils Connexes

Planificateur d'Évaluation — structurer votre conception d'évaluation et calendrier depuis le début du programme
Bibliothèque d'Indicateurs — trouver des indicateurs de résultats alignés sur les bailleurs pour votre secteur

Sujets Connexes

Plan quasi-expérimental — l'alternative la plus courante lorsque les RCT ne sont pas faisables
Analyse de contribution — pour lorsqu'un contrefactuel ne peut pas être construit
Conception de la Situation de Référence — la collecte de données fondamentale sans laquelle aucune évaluation d'impact n'est possible
Attribution vs. Contribution — comprendre la distinction entre l'évaluation d'impact et les revendications de contribution
Évaluation de Méthodes Mixtes — associer les estimations d'impact quantitatives avec des aperçus de processus qualitatifs

Lectures Complémentaires

Gertler, P., Martinez, S., Premand, P., Rawlings, L., & Vermeersch, C. (2016). Évaluation d'Impact en Pratique. 2e éd. Banque mondiale. Le guide de praticien le plus accessible.
White, H. (2014). Défis Actuels en Évaluation d'Impact. Document de travail 3ie 18. Examine les débats méthodologiques.
J-PAL (2019). Introduction aux Évaluations. Laboratoire d'Action sur la Pauvreté. Cours en ligne gratuit couvrant la conception RCT.
USAID (2016). Évaluation : Tirer des Leçons de l'Expérience. ADS 203. Politique de l'USAID sur l'évaluation incluant les exigences d'évaluation d'impact.