DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

O artigo apresenta o corpus DEBISS, uma coleção de debates falados e individuais com características semi-estruturadas e diversas anotações para tarefas de PLN, criada para suprir a escassez de dados nessa área devido à grande variedade de formatos e aplicações de debates.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo, Larissa Lucena Vasconcelos

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô a entender como os humanos discutem, argumentam e tentam convencer uns aos outros. O problema é que a maioria dos robôs hoje em dia só "leu" livros ou posts de internet. Eles não sabem como é a voz tremida de nervosismo, o "ééé..." quando alguém pensa, ou a energia de uma discussão ao vivo.

É aí que entra o DEBISS. Pense nele como um "laboratório de conversas" gravado em áudio, feito especialmente para ajudar a inteligência artificial a entender debates reais.

Aqui está a explicação do papel, traduzida para o dia a dia:

1. O Que é o DEBISS? (O "Menu" do Debate)

O DEBISS é uma coleção de 9 horas e 35 minutos de gravações de debates reais.

  • Quem participou? 67 estudantes de computação de uma universidade no Brasil (UFCG).
  • Sobre o que? O tema era "Inteligência Artificial Generativa e seus impactos na sociedade". Um tema quente, como se fosse um "tema do dia" que todo mundo discute no WhatsApp.
  • Como foi? Não foi um debate formal e chato de TV, nem uma briga de internet. Foi um meio-termo: semi-estruturado.
    • Analogia: Imagine um jogo de futebol com regras claras (não pode empurrar, tem juiz), mas os jogadores podem correr livremente pelo campo e improvisar jogadas. Havia perguntas obrigatórias, mas os alunos podiam falar o que quisessem, com suas próprias palavras e emoções.

2. Por que isso é especial? (O "Pulo do Gato")

A maioria dos dados que as IAs usam hoje são:

  • Debates Políticos: Muito formais, ensaiados e rígidos.
  • Internet (Twitter/Reddit): Texto escrito, cheio de gírias, mas sem voz e sem a emoção de quem está falando.
  • Debates Acadêmicos: Muitas vezes focados em grupos, não em indivíduos.

O DEBISS é único porque é falado, individual e brasileiro.

  • Individual: Cada aluno defendeu sua própria opinião, não a de um time. Isso mostra como uma pessoa sozinha pensa e fala.
  • Língua: É tudo em Português do Brasil. A maioria dos robôs inteligentes é treinada em inglês; esse projeto ajuda a dar voz à nossa língua.
  • Detalhes: Eles gravaram não só o que foi dito, mas como foi dito. Onde a pessoa hesitou? Onde ela repetiu uma palavra? Quem falou com mais firmeza?

3. Como eles fizeram isso? (A "Cozinha" do Projeto)

Os pesquisadores foram como cozinheiros preparando um prato complexo:

  1. A Preparação: Eles deram aos alunos textos para ler sobre o tema (como um "cardápio" de informações) para que todos tivessem base.
  2. A Gravação: Usaram microfones de alta qualidade em uma sala de conferências. Cada aluno tinha um número secreto para não expor o nome, mas para que os pesquisadores soubessem quem era quem.
  3. A Transcrição (O "Tradutor"): Primeiro, usaram uma IA para transformar o áudio em texto (como um legendador automático). Depois, humanos foram como "chefs revisores", ouvindo cada frase e corrigindo erros, separando quem falou o quê e juntando frases quebradas.
  4. A Avaliação (O "Júri"):
    • Autoavaliação: Os alunos disseram: "Como eu me senti?", "Eu me preparei bem?".
    • Avaliação de Pares: Eles votaram em quem foi o melhor debatedor e explicaram o porquê.
    • Júri de Especialistas: Cinco linguistas ouviram tudo e deram notas de 1 a 5 em coisas como "clareza", "persuasão" e "organização".

4. Para que serve tudo isso? (O "Brinquedo" para Robôs)

Esse banco de dados (corpus) é como um kit de ferramentas para cientistas de dados e desenvolvedores de IA. Com o DEBISS, eles podem treinar robôs para fazer coisas incríveis:

  • Argument Mining (Mineração de Argumentos): Ensinar a IA a identificar onde está a "premissa" (o motivo) e onde está a "conclusão" (a ideia principal) em uma conversa bagunçada.
  • Detecção de "Gagueira": Ensinar a IA a limpar textos falados, removendo aqueles "ééé...", "hmmm" e repetições, deixando o texto limpo como se fosse escrito.
  • Análise de Qualidade: Criar robôs que conseguem julgar quem é um bom debatedor, baseando-se em critérios reais, não apenas em quem grita mais alto.

Resumo da Ópera

O DEBISS é como ter um filme de cinema em 3D de uma discussão real, onde você pode ouvir a voz, ver a transcrição, saber quem falou e até ter a nota do professor sobre a performance.

Ele preenche um buraco na biblioteca da inteligência artificial: falta muito material em português que capture a verdadeira natureza de uma conversa falada, com todas as suas imperfeições, hesitações e emoções. Agora, os robôs podem aprender a entender o debate humano como ele realmente é: vivo, dinâmico e cheio de nuances.