El jurado de IA, o «LLM-as-a-judge», consiste en hacer evaluar una respuesta por varios modelos de lenguaje que actúan como jueces. Al cruzar modelos de proveedores distintos, se limita el sesgo de autopreferencia y se obtiene una puntuación más robusta que con un solo modelo.
El principio
En lugar de puntuar una respuesta de IA con un solo modelo —que tendería a preferirse a sí mismo—, se convoca a un jurado de varios modelos jueces procedentes de proveedores distintos. Cada uno puntúa la respuesta según criterios precisos (presencia, exactitud, sentimiento), y luego las notas se agregan.
¿Por qué varios jueces?
- Anti autopreferencia: un modelo no puede favorecer sus propias respuestas si el jurado es diverso.
- Robustez: los errores puntuales de un juez se suavizan con los demás.
- Detección de alucinaciones: una afirmación inverificable detectada por los jueces hace bajar la nota.
Fiabilidad y trazabilidad
El acuerdo entre los jueces se mide mediante un coeficiente de fiabilidad entre jueces. La composición exacta del jurado de cada auditoría se registra mediante una huella de configuración, lo que garantiza la comparabilidad a lo largo del tiempo. Este jurado está en el centro del AGS; ver la metodología y la demostración.
Cada pregunta hecha a ChatGPT sin su nombre en la respuesta es un competidor recomendado en su lugar — medido sobre 6 820 respuestas reales de IA.