¿Qué es Fiabilidad entre jueces (GRC)?

Métrica IA

Fiabilidad entre jueces (GRC)

La fiabilidad entre jueces mide el grado de acuerdo entre varios jueces que puntúan la misma respuesta. Un acuerdo elevado significa que la nota es estable y reproducible; un acuerdo bajo señala una respuesta ambigua sobre la que los jueces divergen.

Medir el acuerdo del jurado

Cuando un jurado de IA puntúa una respuesta, conviene además saber si los jueces están de acuerdo entre sí. La fiabilidad entre jueces cuantifica ese acuerdo: cuanto mayor es, más digna de confianza es la nota. En el AGS, publicamos este coeficiente (que llamamos GRC internamente) para cada auditoría.

¿Para qué sirve?

Confianza: una puntuación respaldada por un acuerdo fuerte es sólida.
Señal de alerta: un desacuerdo marcado revela una respuesta ambigua o un caso límite que conviene examinar.

Transparencia

Junto con el intervalo de confianza, la fiabilidad entre jueces forma parte de los indicadores que mostramos para evidenciar la robustez —y los límites— de cada medición. Detalle en la metodología AGS.

Solo el 16 % de las marcas aparecen cuando sus clientes preguntan a las IA. ¿La suya?

Cada pregunta hecha a ChatGPT sin su nombre en la respuesta es un competidor recomendado en su lugar — medido sobre 6 820 respuestas reales de IA.

Descubrir la plataforma Probar gratis ¿Es usted una marca? Prediagnóstico gratuito en AI Labs Radar

Fiabilidad entre jueces (GRC)

Medir el acuerdo del jurado

¿Para qué sirve?

Transparencia

Términos relacionados