Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás organizando un concurso de cocina gigante. Tienes 100 platos y 5 jueces. Tu objetivo es saber si los jueces están de acuerdo en qué plato es el mejor.

Si los 5 jueces dicen "¡Este es el mejor!", tienes un consenso perfecto. Pero, ¿qué pasa si uno dice "Es el mejor" y otro dice "Es el segundo mejor"? ¿O si uno lo odia y otro lo ama?

Este artículo, escrito por Joseph James, es como un manual de instrucciones para los organizadores de concursos (en este caso, científicos de computación) sobre cómo medir si sus "jueces" (los humanos que etiquetan datos) están realmente de acuerdo, y cómo evitar contar los puntos de forma equivocada.

Aquí tienes la explicación sencilla, dividida en partes:

1. El Problema: No basta con contar "sí" y "no"

En el mundo de la Inteligencia Artificial (IA), los humanos tienen que "enseñar" a las máquinas etiquetando cosas (por ejemplo: "esto es una cara", "esto es un sentimiento triste").

El problema es que a veces los humanos se ponen de acuerdo por casualidad.

La analogía: Imagina que lanzas dos monedas. Si ambas caen en "cara", ¿es porque hay magia o simplemente porque hay un 50% de probabilidad?
Si tienes muchas etiquetas que son muy comunes (ej. "es un perro" en lugar de "es un gato"), los jueces podrían coincidir mucho solo por suerte, no porque sean buenos. El artículo explica que no podemos usar la "acuerdo bruto" (solo contar coincidencias) porque nos miente. Necesitamos fórmulas que resten esa "suerte".

2. Las Herramientas: ¿Qué regla usamos para medir?

El artículo es como una tienda de herramientas. Dependiendo de lo que estés midiendo, necesitas una herramienta diferente:

Etiquetas simples (Categorías): Si solo tienes que elegir entre "Sí", "No" o "Tal vez", usamos reglas como el Kappa de Cohen. Es como un termómetro que te dice: "Oye, están de acuerdo, pero restemos lo que podrían haber hecho por azar".
Muchos jueces: Si tienes 100 jueces y no solo 2, usamos el Kappa de Fleiss o el Alfa de Krippendorff. Imagina que el Alfa de Krippendorff es un "super-heroe" porque puede manejar situaciones donde falta un juez o donde los datos están desordenados.
Grados de acuerdo (Escala): Si los jueces dan notas del 1 al 10 (ej. "¿Qué tan triste es este texto?"), no basta con ver si coinciden en el número exacto. Usamos el Coeficiente de Correlación Intracalás (ICC). Es como medir si todos los jueces tienen la misma "brújula" interna, aunque apunten a números ligeramente distintos.
Trozos de texto (Segmentación): A veces no es una etiqueta, sino marcar dónde empieza y termina una frase. Aquí usamos reglas como Pk o WindowDiff. Imagina que dos personas dibujan un círculo alrededor de un objeto en una foto. Si los círculos se superponen mucho, están de acuerdo. Si uno dibuja un círculo gigante y el otro uno pequeño, hay desacuerdo. Estas reglas miden qué tan bien se superponen esos círculos.

3. Los "Villanos" Ocultos: Sesgos y Fallos

El artículo advierte sobre cosas que arruinan la medición:

El desequilibrio: Si el 90% de tus datos son "perros" y solo el 10% "gatos", es muy fácil acertar por suerte. Las fórmulas deben corregir esto.
La presión del tiempo y el dinero: Si pagas a los jueces por tarea y les das poco tiempo, harán el trabajo rápido y mal (o se pondrán de acuerdo por pereza). Es como pedirle a alguien que pinte un cuadro en 5 minutos; no será arte, será un borrón. El artículo dice que hay que pagar bien y dar tiempo para que el acuerdo sea real.
El desacuerdo no es siempre malo: A veces, que los jueces no se pongan de acuerdo no significa que uno esté equivocado. Significa que la tarea es ambigua (ej. "¿Es esto sarcasmo?"). En lugar de borrar ese desacuerdo, el artículo sugiere guardarlo, porque nos dice que el tema es complejo y la IA debería aprender de esa complejidad.

4. El Nuevo Jugador: La IA como Juez

Antes, solo los humanos juzgaban. Ahora, usamos Inteligencias Artificiales (como ChatGPT) para juzgar a otras IAs.

La analogía: Es como si el chef (la IA) empezara a juzgar a otros chefs.
El artículo dice que las IAs a veces son más consistentes que los humanos (no se cansan, no tienen mal día), pero a veces son "ciegas" a matices culturales o emocionales. No debemos confiar ciegamente en que la IA es perfecta, ni en que los humanos siempre tienen la razón absoluta.

5. La Conclusión: Transparencia

La idea final es simple: No basta con decir "tenemos un 80% de acuerdo".

Hay que explicar cómo se midió.
Hay que decir si hubo jueces expertos o novatos.
Hay que mostrar el margen de error (la incertidumbre).
Hay que aceptar que el desacuerdo es información valiosa, no solo "ruido".

En resumen:
Este papel nos dice que medir si los humanos están de acuerdo es como intentar medir la temperatura con un termómetro de juguete: si no eliges la herramienta correcta para el clima (la tarea), tu lectura será falsa. Para construir Inteligencia Artificial sólida, necesitamos ser honestos, usar las matemáticas correctas y entender que el desacuerdo humano es parte natural de la realidad, no un error que deba eliminarse.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Selección de Métricas de Acuerdo Inter-anotador en NLP

1. Planteamiento del Problema

La anotación humana sigue siendo la base de los datos fiables e interpretables en el Procesamiento del Lenguaje Natural (NLP). Sin embargo, a medida que las tareas de anotación y evaluación evolucionan desde el etiquetado categórico simple hacia la segmentación, el juicio subjetivo y la puntuación continua, la medición de la consistencia entre anotadores (Acuerdo Inter-anotador o IAA, por sus siglas en inglés) se ha vuelto cada vez más compleja.

Los problemas centrales identificados son:

Selección inadecuada de métricas: La diversidad de tareas NLP (extracción de span, preferencias pareadas, escalas continuas) hace que elegir la métrica correcta sea un desafío. El uso de métricas genéricas (como el porcentaje de acuerdo crudo) a menudo sobreestima la fiabilidad al no corregir el azar.
Falta de transparencia en el reporte: Muchos estudios reportan estimaciones puntuales sin intervalos de confianza, ignorando el desequilibrio de clases, los datos faltantes y la variabilidad en el diseño de los evaluadores.
Interpretación errónea del desacuerdo: A menudo se trata el desacuerdo como "ruido" que debe eliminarse, en lugar de reconocerlo como una señal informativa sobre ambigüedad, sesgos o diversidad legítima en los juicios humanos.
Nuevos paradigmas: La aparición de Grandes Modelos de Lenguaje (LLMs) como evaluadores desafía la noción de que el acuerdo humano es el "estándar de oro" absoluto, requiriendo una reevaluación de cómo se mide la fiabilidad.

2. Metodología y Enfoque

El artículo no presenta un nuevo experimento empírico, sino que ofrece una revisión sistemática y una guía metodológica. El autor organiza las métricas de IAA existentes basándose en el tipo de datos y la naturaleza de la tarea, analizando sus supuestos subyacentes, limitaciones y casos de uso óptimos.

La metodología de la revisión cubre:

Clasificación por tipo de dato:
- Datos Categóricos: Análisis de métricas de acuerdo nominal y ordinal.
- Anotaciones Estructuradas: Evaluación de tareas de segmentación, reconocimiento de entidades (NER) y unificación (unitising).
- Datos Continuos: Medición de consistencia en escalas numéricas y de puntuación.
Análisis de factores contextuales: Se examina cómo variables como el desequilibrio de etiquetas, los datos faltantes, el número de anotadores, la experiencia del anotador, las compensaciones económicas y la presión de tiempo afectan las estimaciones de fiabilidad.
Revisión de prácticas de reporte: Se evalúa la importancia de reportar intervalos de confianza, analizar patrones de desacuerdo y distinguir entre fiabilidad (consistencia) y validez (precisión en medir el constructo).

3. Contribuciones Clave

El artículo proporciona una taxonomía exhaustiva de las métricas de IAA y directrices para su selección:

A. Taxonomía de Métricas por Tipo de Tarea:

Datos Categóricos (Nominales/Ordinales):
- Acuerdo Porcentual ( $P_o$ ): Simple pero sobreestima la fiabilidad al ignorar el azar.
- Kappa de Cohen ( $\kappa$ ) y Fleiss ( $\kappa$ ): Corregidos por azar, pero sensibles al desequilibrio de clases y a la paradoja del Kappa (bajo $\kappa$ con alto acuerdo observado).
- S de Bennett, Alpert y Goldstein: Asume distribución uniforme de categorías (limitado).
- Krippendorff's $\alpha$ : Versátil, maneja datos faltantes, múltiples anotadores y diversos tipos de datos (nominal, ordinal, intervalo).
- Gwet's AC1/AC2: Alternativa estable para distribuciones de clases muy desequilibradas.
- Kappa Ponderado: Para escalas ordinales, penaliza más los desacuerdos lejanos.
Anotaciones Estructuradas (Span y Segmentación):
- F1 / Dice: Para superposición de spans (entidades).
- Pk y WindowDiff: Para segmentación de texto (desplazamiento de límites).
- Gamma ( $\gamma$ ) y Distancia de Edición de Límites: Para tareas complejas de unificación y segmentación que requieren alineación óptima y tolerancia a errores parciales.
Datos Continuos:
- Coeficiente de Correlación Intracalase (ICC): El estándar para datos continuos, con variantes (1,1; 2,1; 3,1, etc.) según si los evaluadores son aleatorios o fijos y si se busca consistencia o acuerdo absoluto.
- Alpha de Cronbach: Para consistencia interna (equivalente a ciertas formas de ICC).
- Coeficiente de Correlación de Concordancia (CCC): Evalúa precisión y exactitud simultáneamente, penalizando desviaciones de la línea de identidad.
- Correlaciones (Pearson, Spearman, Kendall): Miden patrones de ordenamiento, no acuerdo absoluto.

B. Directrices para la Interpretación y Reporte:

Fiabilidad vs. Validez: Se enfatiza que un alto IAA solo confirma consistencia, no que se esté midiendo el constructo correcto. Se requiere evidencia de validez complementaria.
Incertidumbre: Es obligatorio reportar intervalos de confianza en lugar de solo estimaciones puntuales para cuantificar la precisión.
El Rol del Desacuerdo: El desacuerdo debe analizarse (no solo agregarse) para entender ambigüedades del lenguaje, sesgos de los anotadores o diversidad cultural. Se sugiere el uso de "etiquetas suaves" (soft labels) y modelos conscientes del anotador.
Factores Humanos: Se discuten los efectos de la compensación (pagos por pieza vs. por hora) y la presión de tiempo, que pueden inflar artificialmente el acuerdo o reducir la calidad.

C. Impacto de los LLMs:
El artículo destaca que los LLMs pueden igualar o superar la fiabilidad humana en tareas estructuradas, pero a menudo fallan en matices afectivos o contextuales. Por tanto, los LLMs no deben reemplazar la evaluación humana, sino ser comparados contra perspectivas humanas diversas.

4. Resultados y Hallazgos Principales

No existe una métrica universal: La elección de la métrica depende críticamente del diseño de la tarea, el tipo de datos y el número de anotadores. Usar Kappa en tareas de segmentación o datos continuos es metodológicamente incorrecto.
Sensibilidad al desequilibrio: Métricas tradicionales como el Kappa de Cohen son inestables cuando las clases están desequilibradas o los anotadores tienen sesgos fuertes; métricas como Gwet's AC1 o Krippendorff's $\alpha$ son preferibles en estos casos.
El desacuerdo es informativo: Ignorar la variabilidad en los juicios humanos (agregando a una sola verdad) puede llevar a modelos menos robustos. Preservar la diversidad de opiniones mejora la generalización.
Necesidad de estandarización: Existe una falta de transparencia en la literatura actual sobre cómo se calculan y reportan estas métricas (ej. ignorando datos faltantes o no reportando intervalos de confianza), lo que dificulta la reproducibilidad.

5. Significado e Impacto

Este trabajo es fundamental para la comunidad de NLP porque:

Promueve la Reproducibilidad: Al estandarizar la selección y el reporte de métricas de IAA, permite comparaciones justas entre diferentes conjuntos de datos y estudios.
Mejora la Calidad de los Datos: Alentar a los investigadores a analizar los patrones de desacuerdo y no solo a buscar un número alto de acuerdo conduce a guías de anotación más claras y a una comprensión más profunda de la ambigüedad lingüística.
Adaptación a la Era de los LLMs: Proporciona el marco necesario para evaluar críticamente cuándo los modelos automáticos pueden sustituir a los humanos y cuándo la evaluación humana sigue siendo indispensable.
Ética y Equidad: Destaca la importancia de considerar la diversidad cultural y lingüística de los anotadores, así como las condiciones laborales justas, como factores que influyen directamente en la fiabilidad de los datos.

En conclusión, el artículo aboga por tratar el acuerdo inter-anotador no como una métrica secundaria, sino como un componente central del proceso metodológico, esencial para construir sistemas de NLP más transparentes, justos y robustos.

Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation

1. El Problema: No basta con contar "sí" y "no"

2. Las Herramientas: ¿Qué regla usamos para medir?

3. Los "Villanos" Ocultos: Sesgos y Fallos

4. El Nuevo Jugador: La IA como Juez

5. La Conclusión: Transparencia

Resumen Técnico: Selección de Métricas de Acuerdo Inter-anotador en NLP

1. Planteamiento del Problema

2. Metodología y Enfoque

3. Contribuciones Clave

4. Resultados y Hallazgos Principales

5. Significado e Impacto

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance