Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Sie betreten eine riesige, zehnjährige Bibliothek, in der nicht nur Bücher stehen, sondern Millionen von Menschen gleichzeitig diskutieren, streiten, lachen und sich einig sind. Das ist im Grunde das, was die Forscher Emma Fraxanet, Vicenç Gómez, Andreas Kaltenbrunner und Max Pellert mit ihrer neuen Studie über die Online-Plattform der österreichischen Zeitung Der Standard getan haben.
Hier ist die Geschichte dieses Projekts, einfach erklärt:
1. Der Schatz im Keller (Die Daten)
Stellen Sie sich die Kommentare unter den Nachrichtenartikeln wie einen gigantischen, lebendigen Fluss vor. Über zehn Jahre (von 2013 bis 2022) haben die Forscher diesen Fluss gefangen gehalten.
- Wie viel? Es sind mehr als 75 Millionen Kommentare und über 400 Millionen Stimmen (Likes oder Dislikes). Das ist so viel Text, dass man ihn nicht einfach in einem Rucksack tragen könnte.
- Was ist das Besondere? Im Gegensatz zu sozialen Medien wie Twitter/X, wo die Themen oft wie Wetterumschwünge kommen und gehen, ist Der Standard wie ein stabiler alter Baum. Die Diskussionen dort sind tief verwurzelt, gut moderiert und haben eine klare Struktur (Antworten auf Antworten).
2. Der Schutzschild (Datenschutz)
Das ist der wichtigste Teil: Die Forscher wollten diesen Schatz teilen, aber sie durften die Namen der Menschen nicht verraten.
- Das Problem: Wenn man den echten Text veröffentlicht, könnte man vielleicht herausfinden, wer geschrieben hat. Das wäre wie ein Foto, auf dem man Gesichter erkennt.
- Die Lösung: Sie haben einen magischen "Text-Scanner" (eine KI-Technologie namens Embeddings) benutzt. Dieser Scanner liest den Text und verwandelt ihn in eine Zahlenliste (einen Vektor).
- Die Analogie: Stellen Sie sich vor, Sie nehmen einen Brief, lesen ihn, und schreiben dann nur eine lange, zufällige Zahlenreihe auf ein Zettel, die den Gefühlston und das Thema des Briefes beschreibt, aber nicht den Inhalt selbst.
- Die Forscher teilen nur diese Zahlenlisten. Niemand kann daraus den Originaltext zurücklesen oder herausfinden, wer geschrieben hat. Es ist wie ein "Geister-Text", der alle Informationen behält, aber keine Identität.
3. Die Landkarte der Meinungen (Stimmen & Themen)
Auf dieser Plattform gibt es nicht nur Reden, sondern auch ein Voting-System.
- Jeder Kommentar kann "hochgestimmt" (grün) oder "runtergestimmt" (rot) werden.
- Das ist wie ein riesiges Thermometer für die öffentliche Stimmung. Die Forscher können sehen, wo die Leute sich einig sind und wo sie sich streiten.
- Zudem haben die Zeitungsredakteure alle Artikel in Themen-Kategorien eingeteilt (wie "Politik", "Sport", "Ukraine", "Wirtschaft"). Das erlaubt es den Forschern, genau zu sehen: "Ah, über Fußball streiten sich die Leute anders als über die Corona-Pandemie."
4. Warum ist das wichtig? (Die Anwendung)
Warum geben die Forscher diese riesige Zahlen-Sammlung frei?
- Für die Wissenschaft: Es ist wie ein Zeitkapsel für die Gesellschaft. Man kann sehen, wie sich die Meinung in Österreich über 10 Jahre verändert hat.
- Vergleichbarkeit: Man kann die Online-Stimmung mit echten Umfragen vergleichen. Stimmt das, was die Leute im Internet schreiben, mit dem überein, was sie in Umfragen sagen?
- Sprache: Die meisten großen Datensätze sind auf Englisch. Dies ist einer der größten Datensätze auf Deutsch. Das ist wie ein Fenster in die Mitte Europas, das zeigt, wie Menschen in einer "mittleren" Sprache (nicht so riesig wie Englisch, aber sehr wichtig) denken.
5. Was man damit machen kann (Die Werkzeuge)
Die Forscher haben die Daten so aufbereitet, dass andere Wissenschaftler sie leicht nutzen können:
- Netzwerke: Man kann sehen, wer mit wem spricht und ob sich die Gesellschaft in zwei Lager spaltet (wie bei einer politischen Spaltung).
- Themen-Trends: Man kann verfolgen, wie ein Thema (z. B. "Flüchtlinge") über Jahre hinweg diskutiert wurde.
- KI-Training: Da die echten Texte nicht da sind, können KI-Modelle mit diesen Zahlenlisten trainiert werden, um zu verstehen, wie deutsche Texte strukturiert sind, ohne dass jemand die Privatsphäre verletzt.
Zusammenfassung in einem Satz
Die Forscher haben einen zehnjährigen Film der österreichischen Online-Debatte eingefroren, die Gesichter der Menschen unsichtbar gemacht, aber ihre Worte in eine geheime Zahlen-Sprache übersetzt, damit die Welt lernen kann, wie Menschen in einer Demokratie diskutieren, ohne dass jemand dabei bloßgestellt wird.
Es ist ein Geschenk an die Wissenschaft: Ein riesiger, sicherer Datenschatz, der zeigt, wie wir in den letzten zehn Jahren gedacht und gefühlt haben.