Each language version is independently generated for its own context, not a direct translation.
Stell dir vor, du hast einen sehr talentierten, aber manchmal etwas impulsiven Koch (das ist unser KI-Modell), der dir Rezepte für komplexe Gerichte (Code) kochen soll.
Bisher gab es zwei Probleme mit diesem Koch:
- Der "Ein-Wurf"-Ansatz: Wenn er ein kompliziertes Gericht bekommt, versucht er es oft sofort auf Anhieb perfekt zu machen. Aber weil er es eilig hat, übersieht er oft kleine Fehler (wie zu viel Salz oder einen verbrannten Boden).
- Die externe Hilfe: Wenn er einen Fehler macht, riefen wir früher einen externen "Kritiker" (einen anderen Computer oder einen Menschen) an, der schmeckt, sagt "Das ist zu salzig!", und der Koch versucht es dann neu. Das kostet aber viel Zeit und Geld, weil man immer jemanden anderen braucht.
ReflexiCoder ist wie ein neuer, genialer Ausbilder, der diesem Koch beibringt, selbst nachzudenken und sich selbst zu korrigieren, ohne dass jemand anderes helfen muss.
Hier ist die einfache Erklärung, wie das funktioniert:
1. Der neue Trainings-Modus (Reinforcement Learning)
Statt dem Koch nur zu sagen "Koch das Rezept", gibt ihm der Ausbilder eine spezielle Aufgabe:
- Schritt 1: Koch das Gericht (Code schreiben).
- Schritt 2: Halt! Denk nach! (Selbstreflexion). "Schmeckt das? Ist die Technik richtig? Wo könnte ich mich geirrt haben?"
- Schritt 3: Korrigiere es sofort, falls nötig (Selbstkorrektur).
Der Ausbilder belohnt den Koch nicht nur dafür, dass das Gericht am Ende schmeckt, sondern besonders dafür, wie gut er nachgedacht hat, bevor er korrigiert hat. Wenn er den Fehler selbst findet und behebt, gibt es einen großen Bonus. Wenn er einfach nur blind weiterkocht, gibt es keine Punkte.
2. Der "innere Monolog" (Das Geniale daran)
Früher musste der Koch immer auf einen externen Kritiker warten, der sagte: "Achtung, Fehler!". Das war wie ein Lehrer, der neben dem Schüler steht und ständig "Nein, so nicht!" ruft.
Mit ReflexiCoder hat der Koch gelernt, einen inneren Monolog zu führen. Er sagt sich selbst: "Moment, ich habe hier einen Fehler gemacht. Ich werde es nochmal überdenken und dann richtig machen."
- Vorteil: Er braucht keinen Lehrer mehr. Er ist autonom.
- Geschwindigkeit: Da er nicht auf externe Hilfe warten muss, geht es oft sogar schneller, weil er den Prozess internalisiert hat.
3. Die Überraschung: Es ist sogar effizienter!
Man könnte denken: "Wenn der Koch erst nachdenkt und dann korrigiert, dauert das doch länger und verbraucht mehr Ressourcen (Token)!"
Aber das ist das Tolle an der Methode:
- Weil der Koch durch das Training gelernt hat, genau zu wissen, wann er aufhören muss, macht er oft nur einen kurzen Denkprozess.
- Er lernt, nicht zu "geplappern" (unnötige Worte zu produzieren), sondern direkt zum Punkt zu kommen.
- Ergebnis: Der Koch verbraucht am Ende sogar weniger Ressourcen als ein Koch, der einfach nur schnell und unüberlegt arbeitet, weil er weniger Fehler macht und weniger Zeit mit Nachbesserungen verbringt.
4. Das Ergebnis im Vergleich
Die Forscher haben ihren "ReflexiCoder-Koch" (ein 8-Milliarden-Parameter-Modell) gegen andere große Köche getestet:
- Er ist besser als viele andere Open-Source-Köche.
- Er kann mit den allerbesten, teuren "Privat-Köchern" (wie GPT-5.1) mithalten oder sie sogar schlagen, obwohl er kleiner ist.
- Besonders bei sehr schwierigen Aufgaben (wie Programmierwettbewerben) glänzt er, weil er die Fähigkeit hat, komplexe Logikfehler selbst zu finden und zu beheben.
Zusammenfassung in einem Satz
ReflexiCoder ist wie ein Koch, dem beigebracht wurde, nicht nur schnell zu kochen, sondern auch selbstkritisch zu sein: Er probiert sein eigenes Essen, findet den Fehler, korrigiert ihn sofort und serviert ein perfektes Gericht – alles ohne dass jemand anderes ihm dabei hilft. Und das Beste: Er macht das so effizient, dass er sogar schneller fertig ist als die, die es einfach nur "aus dem Bauch heraus" versuchen.