Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Sie beauftragen einen extrem talentierten, aber manchmal etwas zu fantasievollen Ghostwriter, einen wissenschaftlichen Bericht zu verfassen. Dieser Ghostwriter (eine Künstliche Intelligenz oder ein "Large Language Model") schreibt flüssig, klingt sehr intelligent und fügt am Ende eine Liste von Quellen hinzu, die wie echte Bücher oder Fachartikel aussehen.
Das Problem? Ein großer Teil dieser Quellen existiert gar nicht. Sie sind erfunden. Das nennt man "Halluzinieren".
Diese Studie von Forschern der NYU, Carnegie Mellon und Boston University untersucht genau dieses Phänomen. Sie wollten herausfinden: Was passiert, wenn wir dem KI-Ghostwriter strenge Regeln geben? Macht es ihn vorsichtiger oder bringt es ihn dazu, noch mehr zu lügen?
Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:
1. Das Experiment: Der "Stress-Test" für die KI
Die Forscher gaben vier verschiedenen KI-Modellen (zwei sehr teure, geschlossene Modelle wie GPT-4o und Claude, und zwei offene, kostenlose Modelle wie LLaMA und Qwen) 144 verschiedene wissenschaftliche Fragen.
Sie stellten dabei fünf verschiedene Szenarien, als wären sie verschiedene Chefs, die unterschiedliche Anweisungen geben:
- Der lockere Chef (Baseline): "Schreib mir einfach einen Absatz mit 5 Quellen."
- Der Zeit-Manager (Temporal): "Schreib mir nur Quellen aus den letzten 5 Jahren!" (Das ist wie ein Koch, der nur Zutaten aus dem Kühlschrank des letzten Monats verwenden darf).
- Der Sammler (Survey): "Schreib einen Überblick über das ganze Feld mit 8 Quellen!" (Hier muss die KI viel breites Wissen abrufen).
- Der Geheimniskrämer (Non-Disclosure): "Erwähne nicht, dass du aus deinem Gedächtnis schreibst!" (Eine Art "Vertraulichkeits-Regel").
- Der Albtraum-Chef (Combo): Eine Mischung aus allen oben genannten strengen Regeln.
2. Die Entdeckung: Form ist nicht Inhalt
Das Wichtigste, was die Studie herausfand, lässt sich mit einem Fälscher vergleichen:
Wenn Sie eine gefälschte Banknote sehen, sieht sie auf den ersten Blick perfekt aus. Sie hat das richtige Wasserzeichen, die richtige Farbe und die richtige Schriftart. Aber wenn Sie sie gegen das Licht halten, ist das Papier falsch.
Genau das passiert mit den KI-Zitaten:
- Die KI hält sich perfekt an die Form (sie schreibt Titel, Autoren, Jahreszahlen und sogar DOI-Nummern in das richtige Format).
- Aber der Inhalt ist oft falsch. Die Bücher existieren nicht.
Das Schockierende Ergebnis:
Keines der Modelle konnte mehr als 47,5 % der Zitate verifizieren. Das bedeutet, dass selbst bei den besten Modellen fast die Hälfte der Quellen erfunden war. Bei den offenen (kostenlosen) Modellen war es noch viel schlimmer – oft waren fast alle Zitate Fantasie.
3. Die Fallen der Regeln
Die Studie zeigte, wie die verschiedenen "Chef-Regeln" die KI beeinflussten:
Der Zeit-Manager (Temporal): Das war die tödlichste Falle. Wenn die KI sagte: "Nur Quellen aus 2020–2025", hielt sie sich an die Jahreszahlen. Aber da sie keine echten Daten aus dieser Zeit hatte, erfand sie einfach neue Bücher, die so aussahen, als wären sie aus diesen Jahren. Die KI sagte nicht: "Ich kann das nicht." Sie sagte: "Hier ist ein Buch aus 2023" (das es nicht gibt).
- Analogie: Ein Koch, der nur Zutaten aus dem Sommer verwenden darf, erfindet einfach eine neue Art von Tomate, die nur im Sommer wächst, weil er keine echten Sommer-Tomaten hat.
Der Sammler (Survey): Wenn die KI aufgefordert wurde, einen großen Überblick zu geben, wurde die Lücke zwischen den teuren und den kostenlosen Modellen riesig. Die teuren Modelle schafften es, ein paar echte Quellen zu finden, während die kostenlosen Modelle fast komplett in die Irre gingen.
Der Geheimniskrämer (Non-Disclosure): Wenn die KI angewiesen wurde, nicht zu sagen, woher sie die Infos hat, wurden die Zitate nicht unbedingt schlechter, aber schwerer zu überprüfen. Die KI ließ oft die "Beweisstücke" (wie die DOI-Nummer) weg.
- Analogie: Jemand behauptet, er habe ein Dokument gesehen, aber er gibt Ihnen nicht den Namen des Dokuments oder den Ort, wo es lag. Sie können es nicht überprüfen, aber es könnte auch erfunden sein.
4. Das große "Vielleicht" (Unresolved)
Ein sehr wichtiger Teil der Studie ist die Kategorie "Unresolved" (Nicht geklärt).
Von allen Zitaten waren zwischen 36 % und 61 % in einer Grauzone. Die KI lieferte eine Quelle, die die Datenbank nicht sofort als "falsch" oder "richtig" einordnen konnte.
Die Forscher haben eine Stichprobe manuell geprüft und festgestellt: Fast die Hälfte dieser "unklaren" Fälle waren tatsächlich erfunden!
Das ist wie bei einem Detektiv: Wenn ein Zeuge eine Geschichte erzählt, die nicht sofort widerlegt werden kann, heißt das nicht, dass sie wahr ist. Es heißt nur, dass wir sie nicht verifizieren können.
5. Was bedeutet das für uns?
Die Botschaft der Studie ist klar und wichtig für jeden, der KI im akademischen oder technischen Bereich nutzt:
- Vertraue niemals blind: Wenn eine KI eine Liste von Quellen liefert, ist das wie eine Liste von Adressen, die jemand auf einem Zettel hingeschmiert hat. Sie sehen aus wie echte Adressen, aber die Häuser stehen vielleicht gar nicht dort.
- Regeln helfen nicht gegen Lügen: Wenn Sie der KI strenge Regeln geben (wie "nur alte Quellen" oder "nur neue Quellen"), wird sie nicht ehrlicher. Sie wird nur besser darin, plausible Lügen zu erfinden, die den Regeln entsprechen.
- Der Preis macht den Unterschied: Teure, geschlossene Modelle sind etwas besser als kostenlose, aber sie halluzinieren trotzdem massiv.
- Die Lösung ist Nachprüfen: Bevor Sie eine KI-generierte Arbeit in einen echten Bericht oder eine wissenschaftliche Studie aufnehmen, müssen Sie jedes einzelne Zitat manuell nachprüfen. Nutzen Sie Datenbanken wie Google Scholar oder Crossref.
Zusammenfassend:
KI ist ein brillanter Schriftsteller, aber ein schlechter Bibliothekar. Sie kann flüssig schreiben, aber wenn sie nach Beweisen gefragt wird, erfindet sie oft die Beweise, um die Geschichte zu Ende zu bringen. Unsere Aufgabe ist es, als Leser und Prüfer diese Fälschungen aufzudecken, bevor sie in die echte Welt gelangen.