Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

El estudio demuestra que el uso de ChatGPT para codificar datos de comunicación en evaluaciones a gran escala presenta una consistencia equitativa entre diferentes subgrupos demográficos, como género y raza, al igual que los evaluadores humanos.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un equipo de cuatro personas trabajando juntas en un proyecto, hablando por chat. Para saber qué tan bien colaboran, los expertos necesitan leer cada mensaje y etiquetarlo: "¡Ah, este mensaje es compartir información!", "¡Este otro es negociar!", "¡Este es solo saludar!".

Antiguamente, esto lo hacían humanos. Imagina a un ejército de lectores muy cansados, leyendo miles de mensajes, uno por uno. Es lento, caro y agotador.

Luego llegó ChatGPT (la Inteligencia Artificial). La idea era: "¡Perfecto! Le damos las reglas a la IA y que ella haga el trabajo de etiquetar por nosotros". Y funcionó bastante bien. Pero surgió una gran duda, como un fantasma en la máquina: ¿Y si la IA tiene prejuicios?

¿Qué pasa si la IA etiqueta mejor los mensajes de las mujeres que los de los hombres? ¿O si entiende mejor a las personas blancas que a las personas negras? Si la IA es "injusta" al leer, los resultados de la evaluación serían injustos.

Esta investigación es como una "prueba de estrés" para ver si la IA es un juez imparcial.

Aquí te explico lo que hicieron, usando analogías sencillas:

1. La Prueba de los Tres Espejos

Los investigadores no solo miraron si la IA acertaba o fallaba. Usaron tres "espejos" (métodos de comprobación) para ver si la IA se comportaba igual con todos los grupos de personas:

  • Espejo 1: ¿Coinciden los votos?
    Imagina que tienes un humano experto y a la IA leyendo el mismo mensaje. ¿Ponen la misma etiqueta? Los investigadores miraron si esta coincidencia era igual de alta para hombres y mujeres, o para personas de diferentes razas.

    • Resultado: ¡Sí! La IA coincidió con los humanos de la misma manera, sin importar de quién fuera el mensaje.
  • Espejo 2: ¿Es la IA consistente?
    A veces, un humano puede estar de buen humor y otro de mal humor, y eso cambia cómo etiquetan. Los investigadores midieron si la "fiabilidad" de la IA cambiaba según el grupo.

    • Resultado: La IA fue igual de fiable para todos. No hubo grupos a los que la IA les "leyera la mente" mejor que a otros.
  • Espejo 3: ¿La IA es un buen sustituto?
    Si la IA y un humano leen un mensaje y luego otro humano lee el mismo mensaje, ¿se parecen sus opiniones? Los investigadores compararon si la IA se comportaba como un "segundo humano" de manera justa para todos.

    • Resultado: Sí. El patrón de acuerdo entre la IA y los humanos fue el mismo para todos los grupos.

2. El Caso Especial de la "Negociación"

Hubo un momento interesante. En una tarea específica llamada "Negociación" (donde la gente debe llegar a un acuerdo), la IA pareció tener más dificultad con los mensajes de participantes negros que con los de participantes blancos.

Pero aquí viene la parte importante: No era porque la IA fuera racista o mala con los mensajes negros. Era porque la IA y los humanos coincidían demasiado con los mensajes de los participantes blancos (casi perfecto). Al ser el estándar de los blancos tan alto, cualquier pequeña diferencia con el grupo negro se veía grande en comparación.

Es como si en una carrera, el corredor A (grupo blanco) corrió a 100 km/h y el corredor B (grupo negro) corrió a 95 km/h. La diferencia es de 5 km/h. Pero si el corredor A hubiera corrido a 50 km/h y el B a 45 km/h, la diferencia sigue siendo 5 km/h, pero se siente menos dramática. En este caso, la "diferencia" fue solo porque el grupo de referencia (blancos) tuvo un rendimiento excepcionalmente alto en esa tarea, no porque la IA fallara con el otro grupo.

3. La Conclusión: ¿Podemos confiar en la IA?

El estudio concluye que sí, podemos tener confianza, pero con precaución.

  • La buena noticia: La IA puede leer y etiquetar chats de colaboración de manera justa, sin discriminar por género o raza. Esto significa que podríamos usarla en el futuro para evaluar habilidades importantes (como el trabajo en equipo) en escuelas o empresas a gran escala, ahorrando mucho tiempo y dinero.
  • La precaución: La IA no es perfecta ni es un reemplazo total todavía. Es como un copiloto excelente, pero el piloto humano (el experto) debe seguir revisando el mapa. Además, la tecnología avanza rápido; lo que funciona hoy con una versión de ChatGPT podría cambiar mañana.

En resumen:
Esta investigación nos dice que la Inteligencia Artificial, cuando se le enseña bien, puede ser un "juez imparcial" para leer conversaciones de equipos. No parece tener "gafas de colores" que la hagan ver mejor a un grupo que a otro. Es un paso gigante para usar la tecnología de forma justa en el mundo real, siempre y cuando la usemos con responsabilidad y supervisión humana.