Quand Utiliser
L'évaluation d'impact est la bonne approche lorsque vous devez savoir si un programme a causé les changements observés dans les résultats — pas seulement si les résultats se sont améliorés, mais si l'amélioration est due au programme. C'est un barème élevé qui nécessite un investissement substantiel dans la conception et la collecte de données. Utilisez-le lorsque :
- Les décisions d'échelle dépendent des preuves — les gouvernements ou bailleurs envisageant un déploiement à grande échelle ont besoin de preuves crédibles que le programme fonctionne avant de s'engager
- L'efficacité du programme est véritablement incertaine — l'intervention a une théorie du changement plausible mais n'a pas été rigoureusement testée dans ce contexte
- Il existe une concurrence politique — comparer deux approches alternatives nécessite une conception comparative pour déterminer laquelle est plus efficace
- Les exigences des bailleurs l'imposent — USAID, USDA et la Banque mondiale exigent de plus en plus des évaluations d'impact pour les programmes au-dessus de certains seuils, particulièrement pour la sécurité alimentaire, la santé et l'agriculture
- Les enjeux sont élevés — les programmes qui affectent un grand nombre de personnes ou impliquent des ressources importantes méritent l'investissement dans une évaluation rigoureuse
L'évaluation d'impact n'est pas appropriée lorsque le programme est encore en cours de développement (utilisez une évaluation formative d'abord), lorsque les résultats ne peuvent pas être mesurés dans le calendrier du programme, lorsqu'un contrefactuel ne peut pas être construit éthiquement ou pratiquement, ou lorsque la question d'évaluation porte sur comment les résultats se sont produits plutôt que si ils l'ont fait (utilisez analyse de contribution ou traçage de processus à la place).
| Scénario | Utiliser l'évaluation d'impact ? | Meilleure alternative |
|---|---|---|
| Décision d'échelle pour un modèle éprouvé | Oui | — |
| Développement de programme à un stade précoce | Non | Évaluation formative |
| Changement complexe multi-acteurs | Non | Analyse de contribution |
| Comment et pourquoi le changement s'est produit | Non | Traçage de processus |
| Aucun contrefactuel possible | Non | Analyse de contribution |
| Mandats des bailleurs exigent des preuves d'attribution | Oui | — |
Comment Cela Fonctionne
Toutes les évaluations d'impact reposent sur une idée centrale : le contrefactuel — ce qui serait arrivé aux participants du programme en l'absence du programme. Puisque vous ne pouvez pas observer les mêmes personnes à la fois avec et sans le programme, vous construisez un groupe de comparaison qui approxime ce contrefactuel.
Étape 1 : Planifier au stade de la conception
Les évaluations d'impact doivent être planifiées avant le début du programme. L'évaluation d'impact rétrospective est rarement crédible. Les données de situation de référence doivent être collectées avant le début du programme.
Étape 2 : Définir la question d'évaluation
Énoncez précisément quel résultat vous essayez de mesurer, pour qui, sur quelle période, et à quel niveau géographique. Les questions vagues produisent des évaluations inconclusives.
Étape 3 : Choisir un plan
Le choix du plan dépend de savoir si l'affectation aléatoire est réalisable :
- Essai Contrôlé Randomisé (RCT) — les participants sont assignés aléatoirement au traitement ou au contrôle. Standard d'or pour la validité interne mais coûteux et souvent éthiquement difficile
- Plans quasi-expérimentaux — lorsque la randomisation n'est pas possible : différence de différences, appariement par score de propension, discontinuité de régression, ou séries temporelles interrompues. Voir plan quasi-expérimental pour les détails
Étape 4 : Établir la situation de référence
Collecter des données sur les résultats pour les deux groupes de traitement et de comparaison avant le début du programme. C'est non négociable. Les deux groupes doivent être comparables à la situation de référence — toute différence doit être documentée et contrôlée dans l'analyse.
Étape 5 : Mettre en œuvre avec intégrité d'évaluation
Surveiller la contamination (groupe de comparaison accédant au programme), l'attrition (perte de participants à l'étude), et la fidélité du plan (programme livré comme prévu). Ces menaces à la validité doivent être gérées tout au long de la mise en œuvre.
Étape 6 : Collecter les données de suivi et analyser
Collecter des données de mi-ligne et de situation finale à des intervalles pré-spécifiés. Analyser en utilisant les méthodes statistiques appropriées pour le plan choisi. Signaler la taille de l'effet de traitement avec des intervalles de confiance, pas seulement les tests de signification.
Étape 7 : Interpréter et communiquer les résultats
Un effet statistiquement significatif n'est pas la même chose qu'un effet pratiquement significatif. Signaler les tailles d'effet en termes que les décideurs comprennent (changements absolus, pourcentages de changement, vies affectées) à côté de la signification statistique.
Composants Clés
- Contrefactuel — un groupe de comparaison crédible qui approxime ce qui serait arrivé sans le programme
- Données de situation de référence — mesures de résultats pré-intervention pour les deux groupes
- Indicateur de résultat principal — un ou deux résultats clés que l'évaluation est capable de détecter
- Calcul de la taille de l'échantillon — détermine combien de participants sont nécessaires pour détecter un effet d'une magnitude attendue
- Pré-enregistrement — enregistrer la conception de l'évaluation, les hypothèses et le plan d'analyse avant la collecte de données (de plus en plus exigé par 3ie, J-PAL et les principaux bailleurs)
- Données de suivi — mesures de mi-ligne et de situation finale à des intervalles pré-spécifiés
- Plan d'analyse — méthodes statistiques pré-spécifiées pour éviter la pêche aux données
Meilleures Pratiques
S'engager vers le contrefactuel. Toute la crédibilité d'une évaluation d'impact dépend de la qualité du groupe de comparaison. L'affectation aléatoire est le standard d'or ; lorsqu'elle n'est pas réalisable, documenter soigneusement pourquoi et utiliser le meilleur plan quasi-expérimental disponible.
Exiger la collecte de données de situation de référence. Aucune situation de référence signifie aucune évaluation d'impact — seulement une comparaison avant-après, qui ne peut pas exclure les tendances qui se seraient produites de toute façon.
Alimenter l'étude pour détecter des effets réalistes. Les études sous-alimentées produisent des résultats inconclusifs peu importe comment tout le reste est fait. Travailler avec un statisticien pour calculer les tailles d'échantillon minimales basées sur les tailles d'effet attendues.
Utiliser les mêmes instruments entre les groupes. Les outils et questions d'enquête doivent être identiques entre les groupes de traitement et de comparaison pour assurer la comparabilité.
Pré-enregistrer la conception. Le pré-enregistrement empêche la sélection de rapports de résultats positifs et construit la crédibilité auprès des bailleurs et des décideurs. 3ie, AEA RCT Registry et RIDIE sont les principaux registres.
Erreurs Courantes
Commencer trop tard. Les évaluations d'impact conçues après le début de la mise en œuvre ne peuvent pas établir de situations de référence valides. L'erreur la plus courante et la plus coûteuse en évaluation d'impact est l'échec de planifier de manière prospective.
Demander à l'évaluation d'impact de répondre aux questions de processus. Une évaluation d'impact vous dit si les résultats ont changé. Elle ne vous dira pas pourquoi, pour qui l'effet a varié, ou quels mécanismes l'ont produit. L'associer avec des méthodes qualitatives pour les aperçus de processus.
Attention inadéquate à la qualité du groupe de comparaison. L'appariement par score de propension, la différence de différences et la discontinuité de régression dépendent tous d'hypothèses qui doivent être testées et rapportées. Présenter des résultats quasi-expérimentaux sans discuter de la plausibilité des hypothèses de conception est trompeur.
Confondre la signification statistique avec le succès du programme. Un effet statistiquement significatif de magnitude négligeable n'est pas un succès du programme. Signaler et interpréter les tailles d'effet.
Négliger les résultats négatifs. Les résultats nuls sont des informations. Une évaluation d'impact bien menée qui ne trouve aucun effet est une preuve précieuse. Supprimer les résultats nuls et vous déformez la base de preuves.
Exemples
Moyens de subsistance agricoles, Afrique de l'Est. Un programme de sécurité alimentaire financé par l'USDA en Éthiopie a utilisé un plan quasi-expérimental avec appariement par score de propension pour évaluer l'impact sur la diversité alimentaire des ménages et les revenus. Les données de situation de référence ont été collectées pour 3 000 ménages de traitement et 2 400 ménages de comparaison appariés avant le début du programme. Les enquêtes de mi-ligne et de situation finale ont suivi les résultats sur cinq ans. L'évaluation a trouvé une amélioration de 0,8 déviation standard dans les scores de diversité alimentaire dans les ménages de traitement par rapport à la comparaison, attribuée au programme. L'effet était concentré dans les ménages dirigés par des femmes, incitant à une révision de la conception pour le programme de suivi.
Santé, Afrique de l'Ouest. Un programme de prévention du paludisme financé par l'USAID au Nigeria a utilisé une conception d'essai randomisé par cluster, randomisant 60 communautés au traitement (distribution gratuite de moustiquaires plus visites de travailleurs de santé communautaire) ou au contrôle (moustiquaires gratuites uniquement). L'évaluation a trouvé que l'ajout de visites de travailleurs de santé communautaire a produit une augmentation de 23 points de pourcentage dans l'utilisation constante de moustiquaires par rapport aux moustiquaires seules, justifiant le coût supplémentaire du composant travailleur de santé communautaire dans la planification du déploiement national.
Éducation, Asie du Sud. Un programme d'amélioration de l'apprentissage soutenu par la Banque mondiale au Pakistan a utilisé une conception de discontinuité de régression basée sur les classements de scores de test au niveau de l'école pour évaluer l'impact sur la réalisation des élèves. Les écoles juste en dessous du seuil d'éligibilité ont été comparées aux écoles juste au-dessus. L'évaluation a trouvé une amélioration de 0,4 déviation standard dans les scores de littératie parmi les élèves de 3e année dans les écoles du programme, avec des effets plus grands pour les filles et les écoles rurales.
Comparé à
| Approche | Revendication causale | Contrefactuel | Approprié lorsque |
|---|---|---|---|
| Évaluation d'Impact | Effet attribuable | Explicite | Contrefactuel faisable, décision d'échelle |
| Plan quasi-expérimental | Effet attribuable | Construit | Randomisation non faisable |
| Analyse de contribution | Contribution plausible | Aucun | Changement complexe, multi-acteurs |
| Traçage de processus | Mécanisme causal | Aucun | Comprendre comment le changement s'est produit |
| Évaluation réaliste | Mécanismes contextuels | Partiel | Ce qui fonctionne, pour qui |
Indicateurs Pertinents
52 indicateurs alignés sur les bailleurs à travers USAID, DFID, Banque mondiale, 3ie, USDA et Global Fund. Exemples clés :
- Changement attribuable net dans le résultat principal entre la situation de référence et la situation finale (traitement vs. comparaison)
- Taille de l'effet (Cohen's d ou différence de points de pourcentage) à la fin du programme
- Proportion des hypothèses d'évaluation confirmées versus infirmées
- Score de fidélité pour la mise en œuvre du programme comme conçu
Outils Connexes
- Planificateur d'Évaluation — structurer votre conception d'évaluation et calendrier depuis le début du programme
- Bibliothèque d'Indicateurs — trouver des indicateurs de résultats alignés sur les bailleurs pour votre secteur
Sujets Connexes
- Plan quasi-expérimental — l'alternative la plus courante lorsque les RCT ne sont pas faisables
- Analyse de contribution — pour lorsqu'un contrefactuel ne peut pas être construit
- Conception de la Situation de Référence — la collecte de données fondamentale sans laquelle aucune évaluation d'impact n'est possible
- Attribution vs. Contribution — comprendre la distinction entre l'évaluation d'impact et les revendications de contribution
- Évaluation de Méthodes Mixtes — associer les estimations d'impact quantitatives avec des aperçus de processus qualitatifs
Lectures Complémentaires
- Gertler, P., Martinez, S., Premand, P., Rawlings, L., & Vermeersch, C. (2016). Évaluation d'Impact en Pratique. 2e éd. Banque mondiale. Le guide de praticien le plus accessible.
- White, H. (2014). Défis Actuels en Évaluation d'Impact. Document de travail 3ie 18. Examine les débats méthodologiques.
- J-PAL (2019). Introduction aux Évaluations. Laboratoire d'Action sur la Pauvreté. Cours en ligne gratuit couvrant la conception RCT.
- USAID (2016). Évaluation : Tirer des Leçons de l'Expérience. ADS 203. Politique de l'USAID sur l'évaluation incluant les exigences d'évaluation d'impact.