Quand Utiliser
Les plans quasi-expérimentaux (PQE) se situent entre les designs expérimentaux (ESS) et les évaluations purement descriptives. Ils tentent de répondre à « Le programme a-t-il causé ce changement ? » sans affectation aléatoire. Utilisez-les lorsque :
- L'affectation aléatoire n'est pas faisable — des préoccupations éthiques, des contraintes opérationnelles ou une résistance politique empêchent la randomisation, mais une attribution causale est toujours nécessaire
- Un groupe de comparaison naturel existe — les règles d'éligibilité du programme, les calendriers de mise en œuvre progressive ou les limites géographiques créent des groupes qui diffèrent uniquement par l'exposition au programme
- Des données administratives sont disponibles — les registres gouvernementaux, les dossiers de santé ou les données d'inscription scolaire permettent l'appariement rétrospectif et la comparaison
- Une expérience naturelle s'est produite — un changement de politique, un seuil d'éligibilité ou un choc externe crée une variation quasi-aléatoire dans l'exposition au programme qui peut être exploitée
- Les bailleurs exigent des preuves d'attribution — USAID, USDA et la World Bank acceptent des plans quasi-expérimentaux crédibles comme preuves de l'efficacité du programme
Les PQE ne sont pas appropriés lorsqu'aucun groupe de comparaison crédible ne peut être construit, lorsque les hypothèses du design ne peuvent pas être testées ou défendues, ou lorsque les questions de processus (pourquoi et comment) sont plus importantes que l'attribution causale (utilisez Analyse de Contribution ou Traçage de Processus dans ces cas).
| Scénario | Utiliser PQE ? | Meilleure Alternative |
|---|---|---|
| Barrière éthique ou logistique à l'ESS | Oui | — |
| Un seuil d'éligibilité naturel existe | Oui (discontinuité de régression) | — |
| Déploiement progressif possible | Oui (différence de différences) | — |
| Aucun groupe de comparaison faisable | Non | Analyse de Contribution |
| Les questions de processus sont primaires | Non | Traçage de Processus |
| Le bailleur exige des preuves de référence | Non | ESS |
Comment Cela Fonctionne
Il n'existe pas un seul design quasi-expérimental — le PQE est une famille d'approches, chacune adaptée à différentes situations de données et hypothèses. Les quatre designs principaux sont :
Design 1 : Différence de Différences (DiD)
Comparez le changement des résultats dans le temps dans un groupe traitement contre le changement dans un groupe de comparaison n'ayant pas reçu le programme. L'estimation DiD est la « double différence » : (post-traitement − pré-traitement) moins (post-comparaison − pré-comparaison). Hypothèse clé : en l'absence du programme, les deux groupes auraient connu des tendances similaires (« tendances parallèles »). Requiert des données de panel sur les deux groupes à la situation de référence et au suivi.
Design 2 : Appariement par Score de Propension (PSM)
Appariez chaque participant au programme à un ou plusieurs non-participants statistiquement similaires sur les caractéristiques observées. Comparez les résultats entre les paires appariées. L'estimation PSM est l'« effet moyen du traitement sur les traités » (ATT). Hypothèse clé : toutes les variables déterminant à la fois la participation au programme et les résultats sont observables et incluses dans le modèle d'appariement.
Pour mettre en œuvre le PSM : collecter des données de situation de référence sur un large éventail de caractéristiques pour les participants et les non-participants ; estimer un modèle de régression logistique prédisant la participation au programme ; utiliser les probabilités prédites (scores de propension) pour apparier les participants et les non-participants ; vérifier l'équilibre ; comparer les résultats.
Design 3 : Discontinuité de Régression (RD)
Exploiter un seuil dans un critère d'éligibilité continu pour comparer les participants juste au-dessus du seuil (éligibles) contre ceux juste en dessous (non éligibles). L'estimation RD s'applique uniquement à ceux proches du seuil. Hypothèse clé : les unités ne peuvent pas manipuler précisément leur score pour être juste au-dessus ou en dessous du seuil. Requiert un grand échantillon près du seuil et une variable de course continue.
Design 4 : Séries Temporelles Interrompues (ITS)
Analyser une longue série temporelle des résultats avant et après l'introduction du programme, en contrôlant les tendances préexistantes. Utile lorsqu'une politique ou un programme unique est introduit à un moment précis et que les données administratives fournissent de nombreux points temporels pré-intervention. Fonctionne sans groupe de comparaison mais est renforcé par son inclusion.
Composants Clés
- Groupe de comparaison — un groupe ne recevant pas le programme dont les résultats peuvent être comparés aux participants
- Données de situation de référence sur les deux groupes — mesures pré-programme des résultats et covariables pour le traitement et la comparaison
- Instruments identiques ou comparables — les mêmes outils d'enquête utilisés pour les deux groupes à chaque point de collecte de données
- Tests d'équilibre — tests statistiques confirmant que les groupes traitement et comparaison sont comparables à la situation de référence sur les caractéristiques observées
- Tests d'hypothèses de design — tests explicites des hypothèses d'identification clés (tendances parallèles, support commun pour le PSM, tests de manipulation de seuil pour le RD)
- Analyse de sensibilité — tester si l'estimation de l'effet du traitement change sous des spécifications de modèle alternatives
- Mesures supplémentaires invariantes dans le temps — variables de situation de référence non attendues pour changer, incluses pour améliorer la qualité de l'appariement
Meilleures Pratiques
Maximiser la comparabilité par des instruments identiques. Les données des groupes traitement et comparaison doivent être collectées en utilisant les mêmes instruments d'enquête, au même moment, par les mêmes (ou équivalentement formés) enquêteurs. Toute différence dans la collecte de données contamine la comparaison.
Tester et rapporter l'équilibre, pas seulement l'appariement. Le PSM n'est pas complet lorsque l'appariement est fait — vous devez tester si les groupes appariés sont réellement équilibrés sur les variables clés et rapporter les résultats. Les échantillons appariés déséquilibrés indiquent que le modèle d'appariement nécessite une révision.
Pré-spécifier l'analyse primaire. Documenter la méthode d'analyse prévue, les covariables et la spécification des résultats avant la collecte de données. Cela empêche la sélection de modèle post-hoc qui gonfle les taux de faux positifs.
Inclure les variables invariantes dans le temps dans l'appariement. Ajouter des variables stables dans le temps (par ex. propriété foncière, ethnie, composition du ménage à la situation de référence) améliore la qualité de l'appariement et réduit le biais.
Rapporter les limites du design honnêtement. Chaque PQE implique des hypothèses in-testables. Un rapport d'évaluation crédible énonce ces hypothèses clairement et explique pourquoi elles sont raisonnables compte tenu du contexte.
Erreurs Courantes
Traiter le PSM comme suffisant sans test d'équilibre. L'appariement par score de propension ne garantit pas l'équilibre. Toujours tester l'équilibre des covariables post-appariement et ré-apparier si l'équilibre est mauvais.
Ignorer l'hypothèse des tendances parallèles dans le DiD. Les estimations différence de différences sont invalides si les groupes traitement et comparaison avaient des tendances pré-programme différentes. Tester les tendances parallèles en utilisant les données pré-programme si disponibles.
Utiliser un groupe de comparaison géographiquement proche sans contrôles de déversement. Si les ménages du groupe de comparaison peuvent observer ou interagir avec les ménages traitement, la contamination biaise l'estimation vers zéro.
Affirmer que le PQE est « aussi bon qu'un ESS ». Les designs quasi-expérimentaux font des hypothèses supplémentaires que les ESS ne font pas. Énoncez clairement le design et ses hypothèses ; ne surestimez pas la garantie causale.
Fouille de données rétrospective. Utiliser des ensembles de données existants sans un plan d'analyse pré-spécifié crée des opportunités pour la sélection de modèle qui produit des résultats faux positifs. Pré-enregistrer l'analyse chaque fois que possible.
Exemples
Sécurité alimentaire, Amérique latine. Un programme financé par l'USDA au Honduras a utilisé l'appariement par score de propension pour évaluer l'impact sur les scores de sécurité alimentaire des ménages. Les données de situation de référence incluaient 40 variables sur la démographie des ménages, les actifs et les pratiques agricoles pour 2 400 ménages traitement et 2 400 ménages comparaison. Après appariement, les différences de moyennes standardisées pour les 40 variables sont tombées en dessous de 0,10, indiquant un bon équilibre. L'estimation DiD à la situation finale a montré une amélioration de 0,6 déviation standard des scores de sécurité alimentaire parmi les ménages traitement par rapport aux comparaisons appariées.
Éducation, Afrique de l'Est. Un programme d'amélioration scolaire au Kenya a utilisé la discontinuité de régression basée sur les scores de pauvreté de district qui déterminaient l'éligibilité au programme. Les écoles marquant juste en dessous du seuil d'éligibilité (éligibles) ont été comparées aux écoles juste au-dessus (non éligibles). L'analyse des données de scores d'examen nationaux a montré une amélioration de 3,8 points de pourcentage des taux de réussite parmi les écoles éligibles par rapport aux écoles non éligibles au seuil, sans preuve de manipulation de score près du seuil.
Santé, Asie du Sud. Un programme de santé communautaire financé par le DFID au Bangladesh a utilisé l'analyse de séries temporelles interrompues des taux de livraison en établissement mensuels à travers 120 sous-districts d'intervention, avec 60 sous-districts de comparaison appariés servant de série de comparaison. Le modèle ITS a estimé une augmentation de 12 points de pourcentage des taux de livraison en établissement attribuables au programme, au-dessus de la tendance préexistante, avec l'effet soutenu sur 24 mois post-introduction.
Comparé À
| Design | Randomisation | Contrefactuel | Hypothèse Clé |
|---|---|---|---|
| PQE (PSM) | Aucune | Construit via appariement | Tous les confondants observés |
| PQE (DiD) | Aucune | Tendances parallèles | Tendance commune absente programme |
| PQE (RD) | Aucune | Discontinuité de seuil | Aucune manipulation de score |
| ESS | Aléatoire | Groupe de contrôle direct | Intégrité de randomisation |
| Analyse de Contribution | Aucune | Aucune | Récit causal plausible |
Indicateurs Pertinents
38 indicateurs à travers les cadres USAID, World Bank, USDA et 3ie. Exemples clés :
- Différence de moyennes standardisées sur les variables clés de situation de référence entre les groupes traitement et comparaison (cible < 0,10)
- Estimation de l'effet du traitement différence de différences avec intervalle de confiance à 95 %
- Pourcentage de support commun (proportion du groupe traitement avec unités de comparaison appariées dans le PSM)
- Nombre de périodes pré-programme utilisées pour tester l'hypothèse des tendances parallèles
Outils Connexes
- Planificateur d'Évaluation — structurer la collecte de données de situation de référence et la sélection du groupe de comparaison
- Bibliothèque d'Indicateurs — identifier les mesures de résultats appropriées pour votre évaluation
Sujets Connexes
- Évaluation d'Impact — la catégorie plus large qui inclut à la fois les ESS et les designs quasi-expérimentaux
- Plan de Situation de Référence — collecter les données qui permettent l'analyse quasi-expérimentale
- Méthodes d'Échantillonnage — comment échantillonner les populations traitement et comparaison
- Signification Statistique — interpréter les p-values et les intervalles de confiance dans l'analyse d'évaluation
- Imputabilité vs. Contribution — quand le PQE est approprié versus l'analyse de contribution
Lectures Complémentaires
- Gertler, P. et al. (2016). Évaluation d'Impact en Pratique. 2e éd. World Bank. Chapitres 5-8 couvrent les designs quasi-expérimentaux avec des explications accessibles.
- Rosenbaum, P. & Rubin, D. (1983). « Le Rôle Central du Score de Propension dans les Études Observationnelles pour les Effets Causaux. » Biometrika, 70(1), 41-55. L'article fondateur du PSM.
- Imbens, G. & Lemieux, T. (2008). « Designs de Discontinuité de Régression : Un Guide de Pratique. » Journal of Econometrics, 142(2), 615-635. La référence standard RD.
- 3ie (2012). Plans Quasi-Expérimentaux pour les Évaluations de Développement. Série d'Évaluation d'Impact. Guidance pratique pour les praticiens du développement.