DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Die Arbeit stellt das DEBISS-Korpus vor, eine Sammlung von gesprochenen und individuellen Debatten mit halbstrukturierten Merkmalen, die durch umfangreiche NLP-Annotationen wie Spracherkennung, Sprecherdiarisierung, Argumentmining und Debattantenbewertung ergänzt wird, um die Lücke im Bereich der Debattenkorpora zu schließen.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo, Larissa Lucena Vasconcelos

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist bei einem großen Familienessen. Jemand wirft ein heftiges Thema auf – zum Beispiel: „Sollten Roboter bald unsere Jobs übernehmen?" Alle am Tisch haben eine Meinung. Manche schreien dazwischen, andere überlegen lange, manche wiederholen sich, und wieder andere haben wirklich gute Argumente.

Genau so ein „Familienessen" voller hitziger Diskussionen ist das, was die Forscher in diesem Papier DEBISS genannt haben. Aber statt einer Familie waren es 67 Studenten, und statt eines Esstisches saßen sie in einem Hörsaal in Brasilien.

Hier ist die Geschichte hinter dem Projekt, ganz einfach erklärt:

1. Das Problem: Es fehlte an „echten" Debatten-Daten

Bisher hatten Computer-Forscher nur zwei Arten von Debatten-Daten:

  • Die steifen Politiker-Debatten: Wie bei der Wahl in den USA. Da sprechen alle sehr förmlich, halten sich streng an Regeln und sagen Dinge, die sie vorher schon geübt haben. Das ist wie ein Theaterstück.
  • Die Internet-Chat-Debatten: Wie auf Twitter oder Reddit. Da schreiben die Leute, aber sie reden nicht. Es fehlt die Stimme, das Zögern und die echte Reaktion im Moment.

Was fehlte, war eine echte, mündliche Diskussion, bei der normale Menschen (in diesem Fall Studenten) spontan reden, sich unterbrechen, überlegen und ihre wahren Gedanken äußern – und das alles auf Portugiesisch.

2. Die Lösung: Das DEBISS-Experiment

Die Forscher haben sich gedacht: „Lass uns eine eigene Debatten-Welt erschaffen!"
Sie luden 67 Informatik-Studenten ein, um über ein sehr aktuelles Thema zu streiten: „Künstliche Intelligenz und wie sie unsere Gesellschaft verändert."

Das war kein langweiliger Vortrag. Es war ein halb-geplanter Streit:

  • Die Regeln: Es gab einen Moderator (wie ein Schiedsrichter), der die Redezeit überwachte.
  • Der Ablauf: Zuerst durften alle ihre Meinung sagen. Dann gab es eine Fragerunde, wo sie sich gegenseitig in die Enge trieben. Am Ende gab es eine kurze Zusammenfassung.
  • Das Besondere: Jeder Student musste für sich selbst argumentieren (nicht als Team). Das ist wie ein Solo-Konzert, bei dem jeder sein eigenes Instrument spielt, aber alle zusammen ein Lied ergeben.

3. Der Schatz: Was wurde daraus gemacht?

Die Forscher haben diese 9 Stunden und 35 Minuten an Diskussionen aufgezeichnet. Aber das war nur der Anfang. Sie haben den Rohstoff wie Goldschürfer weiterverarbeitet:

  • Die Transkription (Das Abschriften): Sie haben die Tonaufnahmen in Text umgewandelt. Da Computer das manchmal falsch machen (besonders bei leisen oder überlappenden Stimmen), haben Menschen nachgeholfen, um jeden Satz perfekt zu korrigieren.
  • Die Sprecher-Erkennung (Das Namensschild): Das System hat gelernt, wer wann gesprochen hat. Es ist, als würde man einem Video automatisch Namen über die Köpfe der Leute schreiben: „Das ist Maria", „Das ist João".
  • Die Bewertung (Das Feedback): Nach der Debatte haben die Studenten sich selbst und ihre Mitspieler bewertet. „Warst du gut?", „Hast du das Thema verstanden?", „Wer war der Beste?". Das gibt den Forschern Daten darüber, was eine gute Debatte ausmacht.

4. Wofür ist das gut? (Die Anwendung)

Stell dir DEBISS wie einen riesigen Trainings-Dojo für KI-Modelle vor. Wenn eine künstliche Intelligenz lernen soll, menschliche Argumente zu verstehen, muss sie mit echten Daten gefüttert werden.

Mit DEBISS können KI-Systeme jetzt lernen:

  • Argumente zu finden: Wo ist die Behauptung? Wo ist der Beweis?
  • Schwächen zu erkennen: Wo zögert jemand? Wo wiederholt er sich nervös?
  • Die Qualität zu bewerten: Wer hat wirklich gut argumentiert und wer nur geschwafelt?
  • Sprache zu verstehen: Wie klingt eine echte Diskussion auf Portugiesisch?

Fazit

Kurz gesagt: Die Forscher haben ein Museum für mündliche Diskussionen gebaut. Sie haben gezeigt, wie man echte, spontane Gespräche einfängt, ordnet und analysiert.

Das Ziel ist es, dass Computer in Zukunft nicht nur Texte lesen können, sondern auch verstehen, wie Menschen wirklich denken, streiten und überzeugen – besonders in Sprachen, die bisher oft zu kurz kamen. Es ist wie ein neues Wörterbuch, aber statt nur für Wörter, ist es für die Kunst des Argumentierens.