Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum das „Denken" der KI nur eine Illusion ist – Eine einfache Erklärung

Stell dir vor, du hast einen sehr klugen, aber etwas verwirrten Assistenten. Wenn du ihn nach einer Lösung für ein komplexes Problem fragst, antwortet er nicht sofort. Stattdessen redet er erst eine ganze Weile vor sich hin. Er sagt Dinge wie: „Hmm, lass mich nachdenken...", „Aha, jetzt hab ich's!", oder „Moment, das passt nicht ganz."

In der Welt der Künstlichen Intelligenz (KI) nennen wir diese vorläufigen Reden „Zwischenschritte" oder „Gedankengänge". Viele Forscher und Tech-Firmen behandeln diese Reden so, als wären sie der echte Denkprozess der KI – als würde die Maschine wirklich nachdenken, genau wie ein Mensch.

Dieses Papier von Forschern der Arizona State University sagt jedoch: Halt! Das ist gefährlich. Wir sollten aufhören, diese KI so menschlich zu machen.

Hier ist die Erklärung, warum das so ist, mit ein paar einfachen Vergleichen:

1. Der Schauspieler, der nicht wirklich denkt

Stell dir einen Schauspieler vor, der eine Rolle spielt. Er liest ein Drehbuch, in dem steht: „Der Held denkt nach, dann sagt er 'Aha!' und findet die Lösung."
Wenn der Schauspieler das auf der Bühne macht, wirkt es echt. Aber er denkt nicht wirklich nach. Er sagt nur die Worte, weil sie im Drehbuch stehen.

Genau das passiert bei diesen KI-Modellen (wie DeepSeek R1). Sie wurden trainiert, lange Texte zu produzieren, die so aussehen, als wären sie Denkprozesse. Sie sagen „Aha!" oder „Warte mal", weil sie in ihren Trainingsdaten gesehen haben, dass Menschen das tun, wenn sie Probleme lösen.
Die Gefahr: Wir glauben, die KI denkt wirklich. Aber sie ist nur ein sehr guter Schauspieler, der das Skript „Denken" perfekt nachspielt.

2. Der Koch, der den falschen Weg beschreibt

Stell dir einen Koch vor, der ein fantastisches Gericht kocht. Aber wenn du ihn fragst, wie er es gemacht hat, erzählt er dir eine lange, verworrene Geschichte: „Zuerst habe ich die Eier geschlagen, dann habe ich überlegt, ob ich Salz brauche, dann habe ich den Ofen auf 200 Grad gestellt..."
Die Geschichte klingt logisch und menschlich. Aber in Wirklichkeit hat der Koch vielleicht gar nicht so gedacht. Vielleicht hat er den Ofen schon vorher aufgedreht, oder er hat gar keine Eier benutzt, sondern nur eine Suppe.

Die Forscher zeigen in ihrem Papier: Die Geschichte (die Zwischenschritte) muss nicht stimmen, damit das Gericht (die Lösung) schmeckt.
Sie haben Experimente gemacht, bei denen sie der KI absichtlich falsche oder sinnlose Geschichten (Zwischenschritte) beigebracht haben. Das Ergebnis? Die KI hat trotzdem die richtige Lösung gefunden!
Das bedeutet: Die KI nutzt diese langen Texte nicht, um wirklich zu rechnen oder zu logieren. Sie nutzt sie eher wie ein Stützrad beim Fahrradfahren – es hilft ihr, das Gleichgewicht zu halten, aber das Rad selbst ist nicht der Motor.

3. Die Länge ist kein Beweis für Intelligenz

Es gibt eine weit verbreitete Idee: „Je länger die KI redet, desto mehr hat sie nachgedacht."
Die Autoren sagen: Das ist ein Trugschluss.
Stell dir vor, jemand versucht, eine einfache mathematische Aufgabe zu lösen. Er schreibt 50 Seiten lang „Ich denke, ich denke, ich denke..." und kommt dann auf das richtige Ergebnis. Hat er wirklich tief nachgedacht? Oder hat er nur Zeit vertrödelt?
Die KI macht genau das. Sie produziert oft riesige Textmengen, die wie Nachdenken aussehen, aber oft nur zufällig entstehen, weil sie so trainiert wurde. Die Länge der Antwort sagt nichts über die Qualität des „Denkens" aus.

4. Warum ist das gefährlich?

Wenn wir glauben, die KI denkt wirklich, dann vertrauen wir ihr blind.

Falsches Vertrauen: Wir schauen uns die lange Erklärung an, denken „Oh, das klingt schlüssig!" und glauben der Antwort. Aber die Erklärung war nur eine Fassade. Die Antwort könnte trotzdem falsch sein.
Falsche Forschung: Forscher versuchen jetzt, die KI noch „menschlicher" zu machen, indem sie sie zwingen, noch mehr „Aha!"-Momente zu produzieren. Aber das ist wie der Versuch, einem Roboter beizubringen, echte Gefühle zu haben, indem man ihm eine Maske aufsetzt. Man verbessert nicht die Intelligenz, man verbessert nur die Verkleidung.

Die Lösung: Was sollten wir tun?

Die Autoren geben uns einen klaren Rat:

Hör auf, den Text zu lesen: Vertraue nicht den langen Erklärungen der KI. Sie sind oft nur „Blabla", das gut klingt.
Überprüfe das Ergebnis: Wenn du wissen willst, ob die KI recht hat, prüfe die Lösung selbst (z. B. mit einem Rechner oder einem Experten), nicht den Weg dorthin.
Lass die KI einfach rechnen: Die KI sollte ihre „Gedanken" (die Zwischenschritte) so nutzen, wie sie am besten für die Maschine funktioniert – vielleicht sogar in einer Sprache, die für uns Menschen gar nicht verständlich ist. Wir müssen sie nicht zwingen, menschlich zu klingen.

Zusammenfassend:
Die KI ist kein kleiner Mensch in einer Maschine, der nachdenkt. Sie ist ein hochkomplexes Werkzeug, das lernt, Muster zu erkennen. Wenn sie lange redet, bevor sie antwortet, ist das nicht „Denken" – es ist nur ein Trick, um die richtige Antwort zu finden. Wir sollten aufhören, uns von der Schauspielerei täuschen zu lassen und stattdessen auf die harten Fakten der Ergebnisse achten.

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

1. Der Schauspieler, der nicht wirklich denkt

2. Der Koch, der den falschen Weg beschreibt

3. Die Länge ist kein Beweis für Intelligenz

4. Warum ist das gefährlich?

Die Lösung: Was sollten wir tun?

1. Problemstellung

2. Methodik und Hintergrund

3. Schlüsselbeiträge und Argumente

4. Ergebnisse und Evidenz

5. Signifikanz und „Call to Action"

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

1. Der Schauspieler, der nicht wirklich denkt

2. Der Koch, der den falschen Weg beschreibt

3. Die Länge ist kein Beweis für Intelligenz

4. Warum ist das gefährlich?

Die Lösung: Was sollten wir tun?

1. Problemstellung

2. Methodik und Hintergrund

3. Schlüsselbeiträge und Argumente

4. Ergebnisse und Evidenz

5. Signifikanz und „Call to Action"

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning