Validité interne et externe : fondement des évaluations crédibles en S&E

Définition

La validité fait référence à la justesse et à la robustesse des conclusions tirées des données d'évaluation. Elle se décline en deux dimensions distinctes, que les praticiens doivent appréhender séparément.

La validité interne répond à la question : le programme est-il réellement la cause des résultats observés ? Elle vise à établir une inférence causale crédible, en éliminant les explications alternatives telles que le biais de sélection, la maturation naturelle ou les événements externes qui auraient pu produire des effets similaires. Une validité interne élevée permet d'attribuer avec confiance le changement observé à l'intervention, plutôt qu'à des facteurs confondants.

La validité externe s'interroge sur la généralisabilité des résultats : ces conclusions peuvent-elles être appliquées au-delà du cadre de cette étude spécifique ? Elle concerne l'applicabilité des résultats à d'autres contextes, populations ou périodes. Une étude dotée d'une forte validité externe génère des enseignements qui demeurent pertinents, même lorsque les conditions du programme diffèrent du contexte initial de l'évaluation.

Ces deux dimensions sont souvent en tension : les études rigoureusement contrôlées maximisent la validité interne mais peuvent restreindre la généralisabilité, tandis que les mises en œuvre en conditions réelles offrent des éclairages contextuels plus riches, au détriment parfois d'une clarté causale moindre.

Pourquoi c'est important

La validité constitue le pilier d'un S&E crédible. Sans elle, il est impossible de distinguer un succès programmé d'une simple coïncidence, ni de tirer des enseignements applicables au-delà d'un cas spécifique. Les praticiens sont confrontés aux enjeux de validité dès qu'ils émettent des conclusions causales, telles que « notre formation a amélioré les compétences » ou « l'intervention a réduit les taux d'abandon ». Ces conclusions orientent les décisions de financement, les ajustements de programme et l'apprentissage organisationnel.

Une validité insuffisante peut entraîner des erreurs coûteuses : généraliser des programmes inefficaces, abandonner des interventions pourtant efficaces, ou allouer des ressources de manière inappropriée sur la base de corrélations trompeuses. À l'inverse, une attention rigoureuse portée à la validité renforce la conception de l'évaluation, précise ce qui peut être raisonnablement affirmé et consolide la confiance des parties prenantes dans les résultats. Pour les évaluations d'impact et les plans quasi-expérimentaux, la validité est le critère de qualité fondamental : sans elle, l'évaluation ne saurait remplir sa fonction.

En pratique

Menaces à la validité interne :

Biais de sélection : les groupes de comparaison présentent des différences systématiques avant l'intervention.
Histoire : des événements externes, concomitants au programme, influencent les résultats.
Maturation : des changements naturels survenus au fil du temps sont interprétés à tort comme des effets du programme.
Effets de test : l'exposition à un pré-test peut influencer les réponses au post-test.
Instrumentation : des modifications dans les outils ou méthodes de mesure au fil du temps peuvent créer des effets artificiels.

Pour y remédier, une conception rigoureuse est essentielle : randomisation (lorsque réalisable), groupes de comparaison appariés, mesures pré-post et contrôles statistiques des facteurs confondants.

Menaces à la validité externe :

Représentativité de l'échantillon : les participants à l'étude ne sont pas représentatifs de la population cible.
Spécificité contextuelle : les résultats sont fortement dépendants de conditions locales uniques.
Limites temporelles : les résultats ne sont applicables qu'à des périodes spécifiques.
Fidélité de mise en œuvre : le programme est mis en œuvre différemment de ce qui était initialement prévu.

Pour renforcer la validité externe, il convient de privilégier un échantillonnage représentatif, de documenter précisément les conditions contextuelles, de réaliser des tests sur plusieurs sites et de faire preuve d'une transparence explicite quant aux limites de la généralisation.

Dans les évaluations d'impact (Évaluation d'Impact), la validité interne est primordiale : l'étude doit impérativement établir la causalité avant d'envisager sa généralisation. Pour les plans quasi-expérimentaux (Plan Quasi-Expérimental), les praticiens recourent à des techniques telles que l'appariement par score de propension ou la méthode des doubles différences pour se rapprocher de la randomisation et étayer les conclusions causales. Tout au long du processus, l'assurance qualité des données garantit que la fiabilité des mesures soutient la validité : des données non fiables ne peuvent en aucun cas être valides.

Sujets connexes

Fiabilité : la cohérence de la mesure, un prérequis essentiel à la validité.
Plan Quasi-Expérimental : méthodes pour établir une inférence causale.
Évaluation d'Impact : domaine où la validité est la préoccupation centrale.
Assurance qualité des données : garantir la précision des mesures.
Biais : erreurs systématiques menaçant la validité.
Contrefactuel : la comparaison indispensable pour les conclusions causales.