Aseguramiento de la Calidad en Pipelines

Más de veinte mecanismos de control de calidad, implementados en cada etapa del proceso.

Esta sección detalla los mecanismos de control de calidad (QCM) integrados en nuestros pipelines. Para conocer las prácticas de aseguramiento de calidad a nivel de tarea al usar IA en su propio trabajo, consulte la guía de Aseguramiento de Calidad de IA.

Nuestra Biblioteca de Mecanismos de Control de Calidad (QCM)

Empleamos más de 20 QCM documentados, clasificados en cinco categorías. La combinación idónea se selecciona en función del pipeline, los riesgos asociados y la tolerancia a los costos.

Validación Determinista

Costo cero

Comprobaciones basadas en reglas que se ejecutan en milisegundos. No requieren llamadas a la IA y detectan las fallas más comunes de manera económica.

  • Validador de esquema. Verifica que el resultado tenga los campos, tipos y estructura correctos.
  • Validador de formato. Asegura que el resultado coincida con la forma, secciones y jerarquía de encabezados esperadas.
  • Validador de rango. Confirma que los campos numéricos estén dentro de los límites aceptables.
  • Verificación de unicidad. Garantiza la ausencia de IDs duplicados o colisiones en campos enumerados.
  • Verificador de subcadenas. Confirma que las citas extraídas realmente existan en el material fuente.
  • Escáner de identificadores. Identifica y marca la información de identificación personal antes de que abandone la infraestructura local.

Juicio Semántico

Costo de LLM por llamada

Un modelo de IA independiente evalúa el resultado comparándolo con una rúbrica o con el material fuente.

  • Juez con rúbrica. La IA evalúa el resultado según criterios de calidad específicos, asignando una puntuación de 0 a 1.
  • Detección de alucinaciones. Las afirmaciones del resultado se verifican con el material fuente.
  • Verificación de evidencia. Cada afirmación citada se valida con la evidencia fundamental.
  • Detección de brechas. Identifica el contenido que debería estar presente pero está ausente.
  • Verificación de consistencia. Asegura que el mismo concepto o código se aplique de manera consistente en todos los elementos.
  • Verificación de tono. El resultado mantiene la fidelidad a la marca y un tono consistente.

Selección de Variantes

Costo de LLM por múltiples llamadas

Genera múltiples candidatos, y un juez selecciona el mejor. Este proceso justifica el costo cuando la calidad de las variantes es variable.

  • Torneo de variantes. Genera 3-5 variantes de un paso; el juez puntúa cada una y la mejor es seleccionada.
  • Filtro de consenso. Tres jueces independientes votan; la mayoría determina si el resultado es aceptable o no.
  • A/B comparativo. Compara el resultado revisado con el original, conservando el de mayor calidad.

Bucles Iterativos

Reintentos limitados

Si una compuerta falla, el proceso se corrige automáticamente y se reintenta. Se limita a dos o tres iteraciones para evitar costos excesivos.

  • Ciclo de autorreparación. El resultado fallido se corrige automáticamente en función de la compuerta específica que falló, y luego se reintenta.
  • Crítica y revisión. Una IA realiza la crítica, y una segunda IA aplica las correcciones utilizando esa crítica como contexto.
  • Bucle de calidad. Puntuación y revisión iterativas hasta alcanzar el umbral deseado o el límite de iteraciones.

Enrutamiento Sensible al Contexto

Varía

Aplica el nivel de aseguramiento de calidad (QA) adecuado según el tipo de trabajo. No todas las compuertas requieren todas las verificaciones.

  • Compuerta de muestreo. En pipelines de alto volumen y confianza, ejecuta el QA en una muestra estadística.
  • Umbral adaptativo. Los resultados de mayor riesgo requieren puntuaciones más elevadas para ser aprobados.
  • Humano en el bucle. Las puntuaciones límite (0.75-0.84) se dirigen a una cola de revisión humana; las inferiores se bloquean automáticamente.

Ejemplo de Pila de Compuertas de Calidad

Un único paso de IA en un pipeline de codificación cualitativa, con las compuertas de calidad ejecutándose posteriormente. La mayoría de estas compuertas son verificaciones deterministas de costo cero. El juez de rúbrica es la única llamada a un LLM.

Paso de IA: Codificación de un extracto de transcripción

~$0.002

AI

Validador de esquema

$0

$0

Verificación de enumeración del libro de códigos

$0

$0

Verificador de subcadenas: ¿la cita existe en la fuente?

$0

$0

Juez de rúbrica: Fidelidad del tema al libro de códigos

~$0.003

LLM

Umbral de aprobación 0.85; de lo contrario, se redirige a revisión humana

Gate

Costo total por elemento: aproximadamente $0.005. Cinco de las seis compuertas son deterministas y de costo cero. El único juez LLM representa el único gasto, y solo se activa si las compuertas deterministas son superadas.

Gestión de Fallos y Enrutamiento

Cuando una compuerta falla, el proceso no continúa de forma silenciosa. El resultado fallido se redirige a revisión humana, adjuntando tres elementos clave: lo que se intentó, qué compuerta falló y el motivo.

El enrutamiento se realiza por compuerta y por paso. Si una compuerta falla en el elemento tres, solo ese elemento específico de ese paso se marca para revisión. Los demás elementos del lote continúan su procesamiento.

Hablemos de un Piloto

Definiremos las compuertas de calidad adecuadas para sus datos y riesgos específicos.

Contáctenos