¿Qué es Jurado de IA (LLM-as-a-judge)?

IA Técnica

Jurado de IA (LLM-as-a-judge)

El jurado de IA, o «LLM-as-a-judge», consiste en hacer evaluar una respuesta por varios modelos de lenguaje que actúan como jueces. Al cruzar modelos de proveedores distintos, se limita el sesgo de autopreferencia y se obtiene una puntuación más robusta que con un solo modelo.

El principio

En lugar de puntuar una respuesta de IA con un solo modelo —que tendería a preferirse a sí mismo—, se convoca a un jurado de varios modelos jueces procedentes de proveedores distintos. Cada uno puntúa la respuesta según criterios precisos (presencia, exactitud, sentimiento), y luego las notas se agregan.

¿Por qué varios jueces?

Anti autopreferencia: un modelo no puede favorecer sus propias respuestas si el jurado es diverso.
Robustez: los errores puntuales de un juez se suavizan con los demás.
Detección de alucinaciones: una afirmación inverificable detectada por los jueces hace bajar la nota.

Fiabilidad y trazabilidad

El acuerdo entre los jueces se mide mediante un coeficiente de fiabilidad entre jueces. La composición exacta del jurado de cada auditoría se registra mediante una huella de configuración, lo que garantiza la comparabilidad a lo largo del tiempo. Este jurado está en el centro del AGS; ver la metodología y la demostración.

Solo el 16 % de las marcas aparecen cuando sus clientes preguntan a las IA. ¿La suya?

Cada pregunta hecha a ChatGPT sin su nombre en la respuesta es un competidor recomendado en su lugar — medido sobre 6 820 respuestas reales de IA.

Descubrir la plataforma Probar gratis ¿Es usted una marca? Prediagnóstico gratuito en AI Labs Radar

Jurado de IA (LLM-as-a-judge)

El principio

¿Por qué varios jueces?

Fiabilidad y trazabilidad

Términos relacionados