Evaluation Report Scoring

AI Prompt Templates

Copy a prompt into Claude, ChatGPT, or Gemini. Paste your document at the bottom and run.

Paste a document and get a scored quality assessment with evidence and revision priorities.

6,532 characters
You are an expert M&E evaluation quality assessor. Score the evaluation report I will provide using the rubric below.

SCORING RUBRIC - Evaluation Report Scoring
Score each dimension 1-5 using these criteria:

DIMENSION 1: Methodology Rigor
- Score 5: Design is explicitly stated with rationale for choosing it. Sampling documents sample size, selection method, and representativeness. Both quantitative and qualitative analysis approaches described in replicable detail. Limitations acknowledged with discussion of implications for interpretation.
- Score 4: Design described but rationale is limited. Sampling documented but representativeness assumed. Analysis described. Limitations listed without discussion of their impact.
- Score 3: Design named but not described in usable detail. Sample size stated but selection method not explained. Analysis approach mentioned but not replicable from description alone. At least one limitation acknowledged but without implications.
- Score 2: Methodology section brief or generic. Sample size and selection not justified. Analysis described in one sentence. Limitations section absent or lists limitations without discussing their effect on findings.
- Score 1: No methodology section. Design not described. Sampling not mentioned. Limitations not acknowledged.

DIMENSION 2: Evidence Quality and Triangulation
- Score 5: All major findings supported by at least two independent sources (triangulation). Quantitative and qualitative evidence integrated, not in separate silos. Contradictory evidence noted and explained. Basis for each finding traceable to data.
- Score 4: Most findings have triangulation. 1-2 findings rely on single source, limitation acknowledged. Both evidence types present with some integration.
- Score 3: About half of findings have triangulation. Single-source reliance is common but not universal. Quantitative and qualitative data both present but largely reported in parallel rather than integrated. Reader can trace some findings to data.
- Score 2: Most findings rely on a single data source. Quantitative and qualitative presented in parallel without integration. Reader cannot trace how conclusions were reached.
- Score 1: No triangulation. Findings appear to reflect evaluator opinion without documented evidence. No data tables, counts, or source references alongside findings.

DIMENSION 3: Findings Presentation
- Score 5: Organized by evaluation question (not by data source or programme chronology). Results include magnitude and direction of change. Disaggregated by sex, age, location, or other relevant variables where data allow. Negative and unexpected findings receive equal attention as positive ones.
- Score 4: Clearly organized, may follow programme components rather than evaluation questions. Most include direction of change. Some disaggregation. Negative findings reported though may receive less space.
- Score 3: Organization is identifiable (by component or theme) but not consistently aligned to evaluation questions. Some results include magnitude. Disaggregation attempted for at least one variable. Negative findings mentioned but clearly receive less emphasis than positive ones.
- Score 2: Organized by data source or are a chronological narrative. Magnitude unclear. Disaggregation absent or limited. Negative findings minimized.
- Score 1: Qualitative narrative with no structure. No disaggregation. Reads as a success story. Reader cannot determine what the programme achieved.

DIMENSION 4: Conclusions and Recommendations
- Score 5: Each conclusion cites the finding(s) it draws on and does not go beyond what the evidence supports. Recommendations are specific (what action, by whom, by when), realistic, and address root causes. Total recommendations manageable (5-12). Priority recommendations distinguished from secondary ones.
- Score 4: Conclusions linked to findings but some connections implied. Recommendations mostly specific with 1-2 exceptions. Responsible parties identified for most.
- Score 3: Conclusions generally consistent with findings but links are not explicitly stated. Several recommendations are specific while others remain general. At least some responsible parties named. Number of recommendations within reasonable range.
- Score 2: Conclusions go beyond evidence or contradict findings. Recommendations generic (could apply to any programme). Responsible parties not specified. Too many (15+) or too few.
- Score 1: Conclusions contradict or ignore findings. Recommendations not actionable. No link between findings, conclusions, and recommendations.

DIMENSION 5: Ethical and Inclusive Reporting
- Score 5: Community members participated in findings validation (beyond data collection). Report addresses power dynamics in data collection and interpretation. Data anonymized where identification could cause harm. Key conclusions communicated back to affected communities.
- Score 4: Community participation beyond data collection evidenced. Basic anonymization applied. Findings shared with implementing partners.
- Score 3: Some evidence of participant engagement beyond data collection (e.g., findings shared informally or reviewed by community representatives). Anonymization applied in most cases but not consistently. Limited documentation of inclusive process.
- Score 2: Ethical protections mentioned but inconsistently applied (direct quotes attributable to named individuals, or locations specific enough to identify respondents). No findings validation with data providers.
- Score 1: No ethical protections documented. Individual data potentially identifiable. No evidence of inclusive process or community feedback loop.

ADDITIONAL TASK: List every recommendation that lacks a named responsible party or specific action. For any that is generic or not actionable, provide a rewritten version that is specific.

OUTPUT FORMAT:

| Dimension | Score (1-5) | Evidence from Report | Priority Action |
|-----------|-------------|---------------------|----------------|
| Methodology Rigor | | | |
| Evidence and Triangulation | | | |
| Findings Presentation | | | |
| Conclusions and Recommendations | | | |
| Ethical and Inclusive Reporting | | | |

**Total: X/25**
**Band:** Strong (22-25) / Adequate (17-21) / Needs Revision (11-16) / Substantial Revision (5-10)
**Single Most Important Revision:** [One specific sentence]

Then list all non-actionable recommendations with rewritten versions.

EVALUATION REPORT TO SCORE:
[Paste your evaluation report or key sections here]

Critères de Notation

Rigueur Méthodologique
5Excellent

La conception est explicitement énoncée et la justification de son choix est expliquée. La justification de l'échantillonnage documente la taille de l'échantillon, la méthode de sélection et la représentativité. Les approches d'analyse quantitative et qualitative sont décrites avec des détails reproductibles. Les limites sont reconnues et leurs implications pour l'interprétation des constatations sont discutées.

4Bon

La conception est décrite mais la justification est limitée. L'échantillonnage est documenté mais la représentativité est supposée. L'analyse est décrite. Les limites sont énumérées mais leur impact n'est pas discuté.

3Adéquat

La conception est nommée mais non décrite avec des détails utilisables. La taille de l'échantillon est indiquée mais la méthode de sélection n'est pas expliquée. L'approche d'analyse est mentionnée mais non reproductible à partir de la seule description. Au moins une limite est reconnue mais sans implications.

2À Améliorer

La section méthodologique est brève ou générique. La taille et la sélection de l'échantillon ne sont pas justifiées. L'analyse est décrite en une seule phrase. La section des limites est absente ou énumère les limites sans discuter de leur effet sur les constatations.

1Insuffisant

Aucune section méthodologique. La conception n'est pas décrite. L'échantillonnage n'est pas mentionné. Les limites ne sont pas reconnues.

Qualité des Preuves et Triangulation
5Excellent

Toutes les constatations majeures sont étayées par au moins deux sources indépendantes (triangulation). Les preuves quantitatives et qualitatives sont intégrées, et non dans des silos séparés. Les preuves contradictoires sont notées et expliquées. La base de chaque constatation est traçable aux données.

4Bon

La plupart des constatations ont une triangulation. 1 à 2 constatations reposent sur une source unique, la limitation est reconnue. Les deux types de preuves sont présents avec une certaine intégration.

3Adéquat

Environ la moitié des constatations ont une triangulation. La dépendance à une source unique est courante mais pas universelle. Les deux types de preuves sont présents mais largement rapportés en parallèle. Le lecteur peut retracer certaines constatations jusqu'aux données.

2À Améliorer

La plupart des constatations reposent sur une source de données unique. Les données quantitatives et qualitatives sont présentées en parallèle sans intégration. Le lecteur ne peut pas retracer comment les conclusions ont été atteintes.

1Insuffisant

Aucune triangulation. Les constatations reflètent l'opinion de l'évaluateur sans preuves documentées. Aucune table de données, aucun décompte ou référence de source à côté des constatations.

Présentation des Constatations
5Excellent

Organisées par question d'évaluation. Les résultats incluent l'ampleur et la direction du changement. Désagrégées par sexe, âge, lieu ou autres variables lorsque les données le permettent. Les constatations négatives et inattendues reçoivent une attention égale à celles positives.

4Bon

Clairement organisées, peuvent suivre les composantes du programme plutôt que les questions d'évaluation. La plupart incluent la direction du changement. Une certaine désagrégation. Les constatations négatives sont rapportées mais peuvent recevoir moins d'espace.

3Adéquat

L'organisation est identifiable mais pas systématiquement alignée sur les questions d'évaluation. Certains résultats incluent l'ampleur. La désagrégation est tentée pour au moins une variable. Les constatations négatives sont mentionnées mais reçoivent clairement moins d'emphase que les positives.

2À Améliorer

Organisées par source de données ou sont un récit chronologique. L'ampleur n'est pas claire. La désagrégation est absente ou limitée à une variable. Les constatations négatives sont minimisées ou absentes.

1Insuffisant

Récit qualitatif sans structure. Aucune désagrégation. Se lit comme une histoire de succès. Le lecteur ne peut pas déterminer ce que le programme a accompli.

Conclusions et Recommandations
5Excellent

Chaque conclusion cite la ou les constatations sur lesquelles elle s'appuie et ne va pas au-delà de ce que les preuves soutiennent. Les recommandations sont spécifiques (quelle action, par qui, pour quand), réalistes et abordent les causes profondes. Le nombre total de recommandations est gérable (5-12). Les recommandations prioritaires sont distinguées.

4Bon

Les conclusions sont liées aux constatations mais certaines connexions sont implicites. Les recommandations sont pour la plupart spécifiques avec 1 à 2 exceptions. Les parties responsables sont identifiées pour la plupart.

3Adéquat

Les conclusions sont généralement cohérentes avec les constatations mais les liens ne sont pas explicitement énoncés. Plusieurs recommandations sont spécifiques tandis que d'autres restent générales. Au moins certaines parties responsables sont nommées. Le nombre de recommandations est dans une fourchette raisonnable.

2À Améliorer

Les conclusions vont au-delà des preuves ou contredisent les constatations. Les recommandations sont génériques. Les parties responsables ne sont pas spécifiées. Trop nombreuses (plus de 15) ou trop peu.

1Insuffisant

Les conclusions contredisent ou ignorent les constatations. Les recommandations ne sont pas exploitables. Aucun lien entre les constatations, les conclusions et les recommandations.

Rapport Éthique et Inclusif
5Excellent

Les membres de la communauté ont participé à la validation des constatations (au-delà de la collecte de données). Le rapport aborde les dynamiques de pouvoir. Les données sont anonymisées lorsque l'identification pourrait causer un préjudice. Les conclusions clés sont communiquées aux communautés affectées.

4Bon

La participation communautaire au-delà de la collecte de données est prouvée. Une anonymisation de base est appliquée. Les constatations sont partagées avec les partenaires de mise en œuvre.

3Adéquat

Certaines preuves d'engagement des participants au-delà de la collecte de données. L'anonymisation est appliquée dans la plupart des cas mais pas de manière cohérente. Documentation limitée du processus inclusif.

2À Améliorer

Les protections éthiques sont mentionnées mais appliquées de manière incohérente (citations directes attribuables à des individus nommés). Aucune validation des constatations avec les fournisseurs de données.

1Insuffisant

Aucune protection éthique documentée. Les données individuelles sont potentiellement identifiables. Aucune preuve de processus inclusif ou de boucle de rétroaction communautaire.

Interprétation du Score

Total (sur 25)NiveauProchaine Étape
22-25FortApprouver avec des demandes éditoriales mineures uniquement
17-21AdéquatDemander des révisions ciblées sur les 1-2 dimensions les plus faibles. Fixer une date limite pour le projet révisé.
11-16Nécessite RévisionRetourner à l'équipe d'évaluation avec la fiche de notation de l'IA comme bref de révision. Ne pas approuver avant une nouvelle révision.
5-10Révision SubstantielleNe répond pas aux normes de qualité minimales. Discuter si une révision substantielle est faisable ou si une collecte de données supplémentaire est nécessaire.