Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die große Detektiv-Aufgabe: Wer schreibt wirklich?

Stellt euch vor, ihr seid in einem riesigen Raum voller Menschen, die alle gleichzeitig Briefe schreiben. Plötzlich taucht ein neuer, super-schneller Roboter auf, der auch Briefe schreiben kann. Die Frage ist: Wie viele der Briefe im Raum kommen wirklich von Menschen und wie viele wurden vom Roboter geschrieben?

Das ist genau das Problem, das sich die Forscher in dieser Studie gestellt haben. Seit ChatGPT (und ähnliche KI-Tools) da sind, wissen wir, dass sie Texte schreiben können, die fast wie menschliche Texte aussehen. Es ist für einen einzelnen Menschen fast unmöglich, den Unterschied zu erkennen – wie ein Fälscher, der so gut ist, dass selbst ein Experte ihn nicht entlarven kann.

Die Forscher wollten also nicht jeden einzelnen Brief prüfen (das wäre zu langsam und ungenau), sondern wollten wissen: Wie viel Prozent des gesamten Textes in einem großen Haufen (z. B. bei wissenschaftlichen Konferenzen) stammt von einer KI?

🧪 Die neue Methode: Der „Wort-Zähler" statt des „Einzel-Prüfers"

Frühere Methoden waren wie ein Detektiv, der jeden einzelnen Brief genau unter die Lupe nimmt. Das funktioniert oft nicht gut, weil KI-Texte immer besser werden.

Diese Forscher haben eine clevere, neue Idee entwickelt: Statt jeden Brief zu prüfen, schauen sie sich die „Wort-Muster" im ganzen Raum an.

Stellt euch vor, Menschen und KI-Modelle haben unterschiedliche Lieblingswörter, wenn sie etwas loben:

Ein Mensch sagt vielleicht: „Das ist gut gemacht."
Eine KI neigt dazu, Wörter wie „bemerkenswert", „außergewöhnlich" oder „methodisch" zu benutzen.

Die Forscher haben einen mathematischen Trick (eine Art „Wahrscheinlichkeits-Rechner") entwickelt. Sie haben gelernt, wie Menschen schreiben (alte Briefe) und wie KIs schreiben (neue Briefe). Dann haben sie geschaut: Wenn wir jetzt einen riesigen Haufen neuer Briefe nehmen, wie viel davon muss von der KI stammen, damit wir diese speziellen „KI-Wörter" in genau dieser Häufigkeit sehen?

Es ist, als würdet ihr in einem See schwimmen und feststellen: „Aha, das Wasser schmeckt heute etwas salziger als sonst. Das bedeutet, dass wahrscheinlich eine große Menge Salz (KI-Text) hineingeworfen wurde, auch wenn wir das Salz nicht einzeln sehen können."

📊 Was haben sie herausgefunden?

Die Forscher haben diese Methode auf die Bewertungen von wissenschaftlichen Arbeiten in großen KI-Konferenzen angewandt (wie ICLR, NeurIPS). Das Ergebnis ist ziemlich aufschlussreich:

Es ist mehr als nur Korrekturlesen: Etwa 6,5 % bis 16,9 % der Sätze in diesen Bewertungen wurden von einer KI stark verändert oder komplett geschrieben. Das ist nicht nur „Rechtschreibung korrigieren", sondern der KI wurde gesagt: „Schreib mir den ganzen Text neu!"
Der „Deadline-Effekt": Wenn die Abgabefrist näher rückt (in den letzten 3 Tagen), steigt der KI-Anteil stark an. Es scheint, als würden reviewers, die unter Zeitdruck stehen, zur KI greifen, um schneller fertig zu werden.
Der „Vertrauens-Effekt": Wenn ein Prüfer in seiner Bewertung schreibt: „Ich bin mir nicht ganz sicher", ist die Wahrscheinlichkeit höher, dass er die KI benutzt hat.
Der Unterschied zu anderen Bereichen: Interessanterweise haben sie das bei den Nature-Journals (sehr renommierte wissenschaftliche Zeitschriften für Biologie, Medizin etc.) nicht gefunden. Dort scheint die KI noch nicht so häufig in den Bewertungen zu stecken. Vielleicht sind die Prüfer dort konservativer oder haben weniger Zeit für Experimente mit neuen Tools.

🎭 Warum ist das wichtig? (Die Metapher vom „Einheitsbrei")

Stellt euch vor, ihr bestellt bei 10 verschiedenen Köchen ein Gericht. Jeder Koch hat seinen eigenen Stil, seine eigenen Ideen und seine eigenen Kritikpunkte. Das ist toll für den Gast (den Autor der Arbeit), weil er viele verschiedene Perspektiven bekommt.

Wenn aber alle Köche plötzlich denselben Kochbuch-Roboter benutzen, um ihre Kritik zu formulieren, passiert etwas Schlimmes: Alle Gerichte schmecken plötzlich gleich.

Die Forscher nennen das „Homogenisierung".

Wenn KI-Texte die Bewertungen dominieren, werden die Kritiken alle gleich klingen.
Die einzigartigen, verrückten oder sehr spezifischen Ideen eines menschlichen Experten gehen verloren.
Die Wissenschaft verliert ihre Vielfalt und wird zu einem „Einheitsbrei".

🏁 Das Fazit

Die Studie sagt nicht: „KI ist böse!" oder „KI ist gut!". Sie sagt einfach: „Schaut mal, wie viel KI schon im System ist."

Es ist wie ein Rauchmelder. Der Rauchmelder sagt nicht, ob das Feuer gut oder schlecht ist, sondern er warnt uns: „Hey, hier brennt etwas, und zwar mehr, als wir dachten."

Die Forscher wollen damit erreichen, dass wir überlegen, wie wir mit KI in der Wissenschaft umgehen. Sollen wir sie nutzen, um Zeit zu sparen? Ja. Aber sollten wir uns bewusst sein, dass wir vielleicht dabei die Vielfalt und Tiefe unserer wissenschaftlichen Diskussionen verlieren? Das ist die Frage, die diese Studie aufwirft.

Kurz gesagt: Wir haben einen neuen, schnellen Weg gefunden, um zu messen, wie viel KI in unseren Texten steckt. Und die Messung zeigt: In der Welt der KI-Forschung ist die KI schon ziemlich tief in den Bewertungen der Experten eingedrungen, besonders wenn es eilig ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Verbreitung von Large Language Models (LLMs) wie ChatGPT hat die Fähigkeit, menschliche Texte von KI-generierten Inhalten zu unterscheiden, erheblich erschwert. Einzelne Instanzen (z. B. ein einzelner Satz oder ein Review) sind oft für Menschen und bestehende Detektoren kaum von menschlichen Texten zu unterscheiden. Dies führt zu Risiken in hochrangigen Informationsökosystemen wie der wissenschaftlichen Peer-Review-Praxis, wo KI-generierte Texte als autoritative, evidenzbasierte Kritik getarnt werden könnten.

Das Hauptproblem besteht darin, den Umfang (Skala) der KI-Nutzung in großen Textkorpora zu quantifizieren. Herkömmliche Methoden zur Instanz-Erkennung (Document-Level oder Sentence-Level) sind oft rechenintensiv, anfällig für Adversarial Attacks und zeigen bei der Unterscheidung im großen Maßstab (Corpus-Level) Instabilität. Es fehlt an effizienten Methoden, um den Anteil von KI-modifizierten Inhalten in einem gesamten Korpus zu schätzen, ohne jede einzelne Instanz klassifizieren zu müssen.

2. Methodik: Distributional GPT Quantification

Die Autoren stellen einen neuen Rahmen vor, der auf Maximum Likelihood Estimation (MLE) basiert und sich auf Populations-Level-Schätzungen konzentriert, anstatt einzelne Dokumente zu klassifizieren.

Grundannahme: Das Zielkorpus wird als eine Mischung aus zwei Verteilungen modelliert:
- $P$ : Die Verteilung von menschlich verfassten Texten (Experten-Reviews).
- $Q$ : Die Verteilung von KI-generierten Texten.
- Das Zielkorpus folgt der Mischung $(1 - \alpha)P + \alpha Q$ , wobei $\alpha$ der zu schätzende Anteil an KI-modifizierten Texten ist.
Schritt-für-Schritt-Ansatz:
1. Datengenerierung: Es werden Referenzkorpora erstellt:
  - Ein Human-Korpus aus historischen, bekannten menschlichen Reviews (z. B. ICLR 2018–2022).
  - Ein AI-Korpus, indem dieselben Review-Anweisungen (Prompts) an ein LLM (GPT-4) gegeben werden, um synthetische Reviews zu generieren.
2. Schätzung der Token-Verteilungen: Anstatt die Wahrscheinlichkeit ganzer Dokumente zu berechnen (was bei der hohen Dimensionalität unmöglich ist), wird die Verteilung auf Basis von Token-Häufigkeiten (insbesondere Adjektive) geschätzt.
  - Für jedes Token $t$ wird die Wahrscheinlichkeit berechnet, dass es in einem menschlichen Dokument ( $\hat{p}(t)$ ) bzw. einem KI-Dokument ( $\hat{q}(t)$ ) vorkommt.
  - Die Dokumentwahrscheinlichkeit wird als Produkt der Token-Eintrittswahrscheinlichkeiten approximiert (unter der Annahme von Token-Unabhängigkeit innerhalb des Vokabulars).
3. Maximum Likelihood Schätzung (MLE): Für das Zielkorpus wird $\alpha$ so gewählt, dass die Log-Likelihood des gemischten Modells maximiert wird:
  $L(\alpha) = \sum_{i=1}^{n} \log ((1 - \alpha)P(x_i) + \alpha Q(x_i))$
4. Validierung: Die Methode wurde auf synthetischen Mischkorpora mit bekanntem $\alpha$ getestet, um die Genauigkeit zu verifizieren.
Effizienz: Der Ansatz ist über 10 Millionen Mal rechen-effizienter als state-of-the-art Klassifikatoren (wie BERT-basierte Detektoren), da er nur Wortfrequenzen zählt und keine aufwendigen Inferenzschritte pro Satz benötigt.

3. Hauptbeiträge

Neue Methodik: Entwicklung einer einfachen, aber effektiven MLE-Methode zur Schätzung des KI-Anteils in großen Korpora, die auf historischen Daten und synthetischen Referenzdaten basiert.
Skalierbare Anwendung: Anwendung dieser Methode auf Peer-Reviews führender KI-Konferenzen (ICLR, NeurIPS, CoRL, EMNLP) und Nature-Journals vor und nach dem Launch von ChatGPT (November 2022).
Erkennung von Mustern: Identifikation von Korrelationen zwischen KI-Nutzung und spezifischen Verhaltensmustern der Rezensenten (z. B. Deadlines, Selbstvertrauen, Zitationsverhalten).
Vergleichbarkeit: Demonstration, dass die Methode bei weitem genauer und robuster ist als bestehende Instanz-basierte Detektionsmethoden (Reduktion des Fehlers um Faktor 3,4 bis 4,6).

4. Ergebnisse

Die Analyse der Daten aus den Jahren 2023 und 2024 ergab folgende zentrale Erkenntnisse:

Signifikante KI-Nutzung in ML-Konferenzen:
- Nach dem Launch von ChatGPT stieg der geschätzte Anteil $\alpha$ an KI-modifizierten Sätzen in Reviews drastisch an.
- ICLR 2024: ca. 10,6 % der Sätze wurden substantiell von KI modifiziert (Vorher: ~1,6 %).
- NeurIPS 2023: ca. 9,1 %.
- EMNLP 2023: ca. 16,9 % (höchster Wert, möglicherweise aufgrund der Nähe zur NLP-Community).
- CoRL 2023: ca. 6,5 %.
Kein signifikanter Anstieg bei Nature-Journals: Im Gegensatz zu den ML-Konferenzen zeigten Reviews in Nature-Familien-Journals (Medizin, Biologie, etc.) keinen signifikanten Anstieg des KI-Anteils nach dem ChatGPT-Launch. Dies deutet auf eine unterschiedliche Adoption in verschiedenen wissenschaftlichen Disziplinen hin.
Substantielle Modifikation vs. Korrektur: Die Methode unterscheidet zwischen bloßer Rechtschreibkorrektur und substantieller KI-Nutzung. Tests zeigten, dass reines „Proofreading" nur einen minimalen Anstieg von $\alpha$ bewirkt, während die beobachteten Werte auf eine tiefgreifende Generierung oder Erweiterung von Inhalten hindeuten.
Korrelationen mit Rezensenten-Verhalten:
- Deadline-Effekt: Reviews, die innerhalb der letzten 3 Tage vor der Frist eingereicht wurden, wiesen einen signifikant höheren KI-Anteil auf.
- Zitations-Effekt: Reviews mit wissenschaftlichen Zitierungen („et al.") hatten einen niedrigeren KI-Anteil als solche ohne.
- Vertrauen: Rezensenten mit niedrigerem Selbstvertrauen (Rating 1-2 auf einer Skala von 5) nutzten häufiger KI.
- Homogenisierung: „Konvergente" Reviews (die anderen Reviews sehr ähnlich sind) hatten einen höheren KI-Anteil als „divergente" (einzigartige) Reviews. Dies deutet auf eine Verarmung der inhaltlichen Vielfalt hin.

5. Bedeutung und Implikationen

Qualitätssicherung der Wissenschaft: Die Studie zeigt, dass KI-Tools bereits in einem signifikanten Maße (ca. 7–17 %) in den Peer-Review-Prozess integriert werden, oft zur Erweiterung von Gliederungen oder zur Formulierung von Texten. Dies könnte die Qualität und Tiefe der Kritik beeinträchtigen, da KI-Texte oft generischer und weniger spezifisch sind.
Verlust der Diversität: Die beobachtete Homogenisierung der Sprache und Inhalte in KI-generierten Reviews ist besorgniserregend, da Peer-Reviews von unterschiedlichen Perspektiven und einzigartigen Einsichten profitieren.
Neue Metrik für die Forschung: Die vorgestellte Methode bietet ein Werkzeug für die wissenschaftliche Gemeinschaft, um den Einfluss von KI auf Informationsökosysteme quantitativ zu überwachen, ohne auf unzuverlässige Einzel-Instanz-Detektoren angewiesen zu sein.
Ethische Aspekte: Die Autoren betonen, dass ihre Methode auf Aggregatdaten basiert und die Anonymität der Rezensenten schützt, was für die ethische Analyse von Peer-Review-Daten entscheidend ist.

Zusammenfassend liefert das Paper den ersten robusten, skalierbaren Nachweis dafür, dass KI-generierte Inhalte den wissenschaftlichen Diskurs in der Informatik bereits signifikant verändern, und fordert zu interdisziplinären Diskussionen über die ethischen und praktischen Konsequenzen dieser Entwicklung auf.

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

🕵️‍♂️ Die große Detektiv-Aufgabe: Wer schreibt wirklich?

🧪 Die neue Methode: Der „Wort-Zähler" statt des „Einzel-Prüfers"

📊 Was haben sie herausgefunden?

🎭 Warum ist das wichtig? (Die Metapher vom „Einheitsbrei")

🏁 Das Fazit

1. Problemstellung

2. Methodik: Distributional GPT Quantification

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification