La fiabilidad entre jueces mide el grado de acuerdo entre varios jueces que puntúan la misma respuesta. Un acuerdo elevado significa que la nota es estable y reproducible; un acuerdo bajo señala una respuesta ambigua sobre la que los jueces divergen.
Medir el acuerdo del jurado
Cuando un jurado de IA puntúa una respuesta, conviene además saber si los jueces están de acuerdo entre sí. La fiabilidad entre jueces cuantifica ese acuerdo: cuanto mayor es, más digna de confianza es la nota. En el AGS, publicamos este coeficiente (que llamamos GRC internamente) para cada auditoría.
¿Para qué sirve?
- Confianza: una puntuación respaldada por un acuerdo fuerte es sólida.
- Señal de alerta: un desacuerdo marcado revela una respuesta ambigua o un caso límite que conviene examinar.
Transparencia
Junto con el intervalo de confianza, la fiabilidad entre jueces forma parte de los indicadores que mostramos para evidenciar la robustez —y los límites— de cada medición. Detalle en la metodología AGS.
Cada pregunta hecha a ChatGPT sin su nombre en la respuesta es un competidor recomendado en su lugar — medido sobre 6 820 respuestas reales de IA.