Evaluation Report Scoring

AI Prompt Templates

Copy a prompt into Claude, ChatGPT, or Gemini. Paste your document at the bottom and run.

Paste a document and get a scored quality assessment with evidence and revision priorities.

6,532 characters

You are an expert M&E evaluation quality assessor. Score the evaluation report I will provide using the rubric below.

SCORING RUBRIC - Evaluation Report Scoring
Score each dimension 1-5 using these criteria:

DIMENSION 1: Methodology Rigor
- Score 5: Design is explicitly stated with rationale for choosing it. Sampling documents sample size, selection method, and representativeness. Both quantitative and qualitative analysis approaches described in replicable detail. Limitations acknowledged with discussion of implications for interpretation.
- Score 4: Design described but rationale is limited. Sampling documented but representativeness assumed. Analysis described. Limitations listed without discussion of their impact.
- Score 3: Design named but not described in usable detail. Sample size stated but selection method not explained. Analysis approach mentioned but not replicable from description alone. At least one limitation acknowledged but without implications.
- Score 2: Methodology section brief or generic. Sample size and selection not justified. Analysis described in one sentence. Limitations section absent or lists limitations without discussing their effect on findings.
- Score 1: No methodology section. Design not described. Sampling not mentioned. Limitations not acknowledged.

DIMENSION 2: Evidence Quality and Triangulation
- Score 5: All major findings supported by at least two independent sources (triangulation). Quantitative and qualitative evidence integrated, not in separate silos. Contradictory evidence noted and explained. Basis for each finding traceable to data.
- Score 4: Most findings have triangulation. 1-2 findings rely on single source, limitation acknowledged. Both evidence types present with some integration.
- Score 3: About half of findings have triangulation. Single-source reliance is common but not universal. Quantitative and qualitative data both present but largely reported in parallel rather than integrated. Reader can trace some findings to data.
- Score 2: Most findings rely on a single data source. Quantitative and qualitative presented in parallel without integration. Reader cannot trace how conclusions were reached.
- Score 1: No triangulation. Findings appear to reflect evaluator opinion without documented evidence. No data tables, counts, or source references alongside findings.

DIMENSION 3: Findings Presentation
- Score 5: Organized by evaluation question (not by data source or programme chronology). Results include magnitude and direction of change. Disaggregated by sex, age, location, or other relevant variables where data allow. Negative and unexpected findings receive equal attention as positive ones.
- Score 4: Clearly organized, may follow programme components rather than evaluation questions. Most include direction of change. Some disaggregation. Negative findings reported though may receive less space.
- Score 3: Organization is identifiable (by component or theme) but not consistently aligned to evaluation questions. Some results include magnitude. Disaggregation attempted for at least one variable. Negative findings mentioned but clearly receive less emphasis than positive ones.
- Score 2: Organized by data source or are a chronological narrative. Magnitude unclear. Disaggregation absent or limited. Negative findings minimized.
- Score 1: Qualitative narrative with no structure. No disaggregation. Reads as a success story. Reader cannot determine what the programme achieved.

DIMENSION 4: Conclusions and Recommendations
- Score 5: Each conclusion cites the finding(s) it draws on and does not go beyond what the evidence supports. Recommendations are specific (what action, by whom, by when), realistic, and address root causes. Total recommendations manageable (5-12). Priority recommendations distinguished from secondary ones.
- Score 4: Conclusions linked to findings but some connections implied. Recommendations mostly specific with 1-2 exceptions. Responsible parties identified for most.
- Score 3: Conclusions generally consistent with findings but links are not explicitly stated. Several recommendations are specific while others remain general. At least some responsible parties named. Number of recommendations within reasonable range.
- Score 2: Conclusions go beyond evidence or contradict findings. Recommendations generic (could apply to any programme). Responsible parties not specified. Too many (15+) or too few.
- Score 1: Conclusions contradict or ignore findings. Recommendations not actionable. No link between findings, conclusions, and recommendations.

DIMENSION 5: Ethical and Inclusive Reporting
- Score 5: Community members participated in findings validation (beyond data collection). Report addresses power dynamics in data collection and interpretation. Data anonymized where identification could cause harm. Key conclusions communicated back to affected communities.
- Score 4: Community participation beyond data collection evidenced. Basic anonymization applied. Findings shared with implementing partners.
- Score 3: Some evidence of participant engagement beyond data collection (e.g., findings shared informally or reviewed by community representatives). Anonymization applied in most cases but not consistently. Limited documentation of inclusive process.
- Score 2: Ethical protections mentioned but inconsistently applied (direct quotes attributable to named individuals, or locations specific enough to identify respondents). No findings validation with data providers.
- Score 1: No ethical protections documented. Individual data potentially identifiable. No evidence of inclusive process or community feedback loop.

ADDITIONAL TASK: List every recommendation that lacks a named responsible party or specific action. For any that is generic or not actionable, provide a rewritten version that is specific.

OUTPUT FORMAT:

| Dimension | Score (1-5) | Evidence from Report | Priority Action |
|-----------|-------------|---------------------|----------------|
| Methodology Rigor | | | |
| Evidence and Triangulation | | | |
| Findings Presentation | | | |
| Conclusions and Recommendations | | | |
| Ethical and Inclusive Reporting | | | |

**Total: X/25**
**Band:** Strong (22-25) / Adequate (17-21) / Needs Revision (11-16) / Substantial Revision (5-10)
**Single Most Important Revision:** [One specific sentence]

Then list all non-actionable recommendations with rewritten versions.

EVALUATION REPORT TO SCORE:
[Paste your evaluation report or key sections here]

Criterios de Puntuación

Dimensión	Excelente (5)	Bueno (4)	Adecuado (3)	Necesita Mejora (2)	Inadecuado (1)
Rigor Metodológico	El diseño se declara explícitamente y se explica la justificación para elegirlo. La justificación del muestreo documenta el tamaño de la muestra, el método de selección y la representatividad. Se describen los enfoques de análisis tanto cuantitativos como cualitativos con detalles replicables. Se reconocen las limitaciones y se discuten sus implicaciones para la interpretación de los hallazgos.	El diseño se describe, pero la justificación es limitada. El muestreo está documentado, pero se asume la representatividad. El análisis está descrito. Las limitaciones se enumeran, pero no se discute su impacto.	El diseño se nombra, pero no se describe con detalles utilizables. Se indica el tamaño de la muestra, pero no se explica el método de selección. El enfoque de análisis se menciona, pero no es replicable solo a partir de la descripción. Se reconoce al menos una limitación, pero sin implicaciones.	La sección de metodología es breve o genérica. El tamaño y la selección de la muestra no están justificados. El análisis se describe en una sola frase. La sección de limitaciones está ausente o enumera las limitaciones sin discutir cómo afectan los hallazgos.	Sin sección de metodología. El diseño no está descrito. El muestreo no se menciona. Las limitaciones no se reconocen.
Calidad de la Evidencia y Triangulación	Todos los hallazgos principales están respaldados por al menos dos fuentes independientes (triangulación). La evidencia cuantitativa y cualitativa está integrada, no en silos separados. Se señala y explica la evidencia contradictoria. La base de cada hallazgo es rastreable a los datos.	La mayoría de los hallazgos tienen triangulación. 1-2 hallazgos se basan en una única fuente, se reconoce la limitación. Ambos tipos de evidencia están presentes con cierta integración.	Aproximadamente la mitad de los hallazgos tienen triangulación. La dependencia de una única fuente es común, pero no universal. Ambos tipos de evidencia están presentes, pero en gran medida se reportan en paralelo. El lector puede rastrear algunos hallazgos hasta los datos.	La mayoría de los hallazgos se basan en una única fuente de datos. Los datos cuantitativos y cualitativos se presentan en paralelo sin integración. El lector no puede rastrear cómo se llegó a las conclusiones.	Sin triangulación. Los hallazgos reflejan la opinión del evaluador sin evidencia documentada. No hay tablas de datos, recuentos o referencias de fuentes junto con los hallazgos.
Presentación de Hallazgos	Organizado por pregunta de evaluación. Los resultados incluyen la magnitud y dirección del cambio. Desagregados por sexo, edad, ubicación u otras variables donde los datos lo permitan. Los hallazgos negativos e inesperados reciben la misma atención que los hallazgos positivos.	Claramente organizado, puede seguir los componentes del programa en lugar de las preguntas de evaluación. La mayoría incluye la dirección del cambio. Alguna desagregación. Se reportan hallazgos negativos, aunque pueden recibir menos espacio.	La organización es identificable (por componente o tema), pero no está consistentemente alineada con las preguntas de evaluación. Algunos resultados incluyen magnitud. Se intentó la desagregación para al menos una variable. Se mencionan los hallazgos negativos, pero reciben claramente menos énfasis que los positivos.	Organizado por fuente de datos o es una narrativa cronológica. Magnitud poco clara. Desagregación ausente o limitada a una variable. Hallazgos negativos minimizados o ausentes.	Narrativa cualitativa sin estructura. Sin desagregación. Se lee como una historia de éxito. El lector no puede determinar qué logró el programa.
Conclusiones y Recomendaciones	Cada conclusión cita el(los) hallazgo(s) en los que se basa y no va más allá de lo que la evidencia respalda. Las recomendaciones son específicas (qué acción, por quién, para cuándo), realistas y abordan las causas raíz. El total de recomendaciones es manejable (5-12). Las recomendaciones prioritarias se distinguen.	Las conclusiones están vinculadas a los hallazgos, pero algunas conexiones están implícitas. Las recomendaciones son en su mayoría específicas, con 1-2 excepciones. Las partes responsables están identificadas para la mayoría.	Las conclusiones son generalmente consistentes con los hallazgos, pero los vínculos no se declaran explícitamente. Varias recomendaciones son específicas, mientras que otras siguen siendo generales. Al menos algunas partes responsables están nombradas. El número de recomendaciones está dentro de un rango razonable.	Las conclusiones van más allá de la evidencia o contradicen los hallazgos. Las recomendaciones son genéricas. Las partes responsables no están especificadas. Demasiadas (más de 15) o muy pocas.	Las conclusiones contradicen o ignoran los hallazgos. Las recomendaciones no son accionables. No hay vínculo entre hallazgos, conclusiones y recomendaciones.
Informes Éticos e Inclusivos	Miembros de la comunidad participaron en la validación de hallazgos (más allá de la recopilación de datos). El informe aborda las dinámicas de poder. Los datos están anonimizados donde la identificación podría causar daño. Las conclusiones clave se comunicaron a las comunidades afectadas.	Se evidencia la participación comunitaria más allá de la recopilación de datos. Se aplica anonimización básica. Los hallazgos se comparten con los socios implementadores.	Alguna evidencia de participación de los participantes más allá de la recopilación de datos. La anonimización se aplica en la mayoría de los casos, pero no consistentemente. Documentación limitada del proceso inclusivo.	Se mencionan protecciones éticas, pero se aplican de manera inconsistente (citas directas atribuibles a individuos nombrados). Sin validación de hallazgos con los proveedores de datos.	No se documentan protecciones éticas. Los datos individuales son potencialmente identificables. No hay evidencia de proceso inclusivo o ciclo de retroalimentación comunitaria.

Interpretación de la Puntuación

Total (de 25)	Categoría	Siguiente Paso
22-25	Fuerte	Aprobar con solicitudes editoriales menores solamente
17-21	Adecuado	Solicitar revisiones específicas en las 1-2 dimensiones más bajas. Establecer una fecha límite para el borrador revisado.
11-16	Necesita Revisión	Devolver al equipo de evaluación con la tarjeta de puntuación de IA como resumen de revisión. No aprobar hasta que sea revisado nuevamente.
5-10	Revisión Sustancial	No cumple con los estándares mínimos de calidad. Discutir si una revisión sustancial es factible o si se necesita una ronda de recopilación de datos suplementaria.

Prompts que Usan Esta Rúbrica

Create an Evaluation Matrix

Build an evaluation matrix linking evaluation questions to criteria, indicators, data sources, and methods.

Draft an Evaluation Report

Write up evaluation findings into a professional report with methodology, results, and recommendations.

Draft Evaluation Terms of Reference

Write terms of reference for commissioning an external evaluation, including scope, questions, and methodology.

Review My Evaluation Design

Get feedback on your evaluation methodology, questions, sampling, and analysis plan before fieldwork.

Design a Mid-Term Evaluation

Plan a mid-term evaluation to check program progress, relevance, and early outcomes.

Volver a la Biblioteca de Prompts