DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Este artículo presenta DEBISS, un corpus de debates hablados, individuales y semiestructurados con diversas anotaciones de PLN para abordar la escasez de recursos en este dominio.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo, Larissa Lucena Vasconcelos

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que el debate es como un juego de ajedrez hablado. En lugar de mover piezas de madera, las personas mueven ideas, argumentos y emociones. Normalmente, cuando pensamos en debates, imaginamos dos cosas: o son discusiones muy serias y rígidas (como las de los presidentes en la televisión) o son comentarios sueltos en internet escritos por gente anónima.

Pero, ¿qué pasa con esas conversaciones reales que tenemos en la universidad, donde la gente piensa en voz alta, se equivoca, se corrige y usa un lenguaje natural? Ahí es donde entra este papel.

Aquí te explico el proyecto DEBISS como si fuera una receta de cocina para un nuevo ingrediente secreto en la cocina de la Inteligencia Artificial:

1. ¿Qué es DEBISS? (El Ingrediente Secreto)

Los científicos de la Universidad Federal de Campina Grande (en Brasil) se dieron cuenta de que a las "cocinas" de la Inteligencia Artificial les faltaba un plato muy específico: debates hablados, individuales y semi-organizados en portugués.

  • El problema: Antes, las IAs solo habían "comido" debates de políticos muy formales o textos escritos en inglés. Les faltaba practicar con el lenguaje real, con sus tartamudeos, pausas y la espontaneidad de un estudiante de primer año.
  • La solución: Crearon DEBISS. Imagina que grabaron a 67 estudiantes de computación durante 9 horas y media discutiendo sobre un tema muy actual: "¿Cómo la Inteligencia Artificial Generativa está cambiando nuestra sociedad?".

2. ¿Cómo se hizo el "plato"? (La Metodología)

No fue una charla libre y caótica. Fue como un juego de mesa con reglas claras pero flexibles:

  • Los jugadores: Se formaron 16 grupos pequeños (de 3 a 5 personas).
  • El formato: No era un monólogo (uno hablando solo) ni un grupo gritando todos a la vez. Era individual: cada estudiante defendía su propia idea, pero dentro de un marco organizado.
  • La estructura:
    1. La entrada: Todos dicen su opinión inicial.
    2. El medio juego: El moderador hace preguntas específicas (como un DJ que pide canciones) y los estudiantes responden.
    3. El final: Todos reflexionan si cambiaron de opinión.
  • El micrófono: Usaron micrófonos de alta calidad para capturar cada susurro y cada "ehhh..." o "este..." (los famosos disfluencies o vacilaciones).

3. ¿Qué hicieron con la grabación? (La Transformación)

Aquí es donde la magia de la tecnología entra en acción. Tuvieron que convertir esas 9 horas de audio en algo que una computadora pueda entender. Fue como traducir un idioma alienígena al inglés:

  1. Transcripción automática: Usaron IAs avanzadas (como un traductor muy rápido) para convertir el audio en texto.
  2. La revisión humana: Como las IAs a veces se confunden, humanos leyeron todo y corrigieron los errores. ¡Fue como editar un libro para que no tenga faltas de ortografía!
  3. Etiquetado (La parte más importante): No solo escribieron lo que dijeron, sino que pusieron "etiquetas" en cada frase:
    • ¿Quién habló? (Identificación de voces).
    • ¿Es una afirmación? ¿Es una duda? ¿Es un argumento?
    • ¿Quién ganó el punto en ese momento?

4. ¿Para qué sirve todo esto? (El Menú Final)

Ahora que tienen este "plato" listo, los científicos pueden servirlo de varias formas para mejorar la Inteligencia Artificial:

  • Para que la IA escuche mejor: Ayuda a las máquinas a entender el lenguaje real, con sus muletillas y pausas, no solo el lenguaje de los libros de texto.
  • Para medir la calidad de un debate: Imagina un juez de cocina que no solo prueba la comida, sino que evalúa cómo el chef preparó el plato. DEBISS permite a las IAs aprender a juzgar quién argumentó mejor, quién fue más persuasivo y quién se preparó más.
  • Para aprender a debatir: Al analizar estos datos, podemos entender qué hace que una persona sea un gran orador y enseñarle a otros (o a robots) a hacerlo mejor.

En resumen

DEBISS es como una cápsula del tiempo de conversaciones reales en portugués. Es un tesoro de datos que le dice a la Inteligencia Artificial: "Oye, así es como hablamos de verdad en la vida real, con todas nuestras dudas, emociones y argumentos. Ahora, aprende de nosotros".

Es un paso gigante para que la tecnología deje de ser un robot frío que solo lee noticias, y empiece a entender las conversaciones complejas y humanas que ocurren en las aulas y en la vida diaria.