IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing, Shark Liu, Yizhi Li, Jiajun Wu, Cening Liu, X. Ma, Yuyang Song, Siwei Wu, Yuwen Li, L. Liao, T. Zheng, Ziling Huang, Zelong Huang, Che Liu, Yan

Veröffentlicht 2026-03-18

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🚀 Die Geschichte vom "Super-Programmierer", der lernt, wie ein echter Mensch

Stell dir vor, du möchtest einen jungen Menschen zum besten Software-Architekten der Welt ausbilden. Bisher haben KI-Modelle wie dieser junge Mensch meist nur Bücher gelesen (statische Code-Daten). Sie kannten den Code auswendig, aber sie wussten nicht, wie man ihn entwickelt, wie man Fehler findet oder wie man über Monate hinweg ein riesiges Projekt plant.

Das Team von IQuest hat sich gedacht: "Das reicht nicht." Sie haben eine neue Ausbildungsmethode entwickelt, die sie Code-Flow nennen. Stell dir das nicht wie das Auswendiglernen eines Wörterbuchs vor, sondern wie das Beobachten eines ganzen Bauprojekts von der ersten Skizze bis zum fertigen Wolkenkratzer.

Hier ist, wie sie ihren "Super-Programmierer" (IQuest-Coder-V1) aufgebaut haben:

1. Die Grundausbildung: Vom Anfänger zum Handwerker (Pre-Training)

Zuerst gibt der KI riesige Mengen an Code zu lesen. Aber nicht einfach nur zufällige Schnipsel.

Der Trick: Sie zeigen ihr nicht nur fertige Gebäude, sondern auch die Baugeschichte. Sie sehen, wie ein Code von Version A zu Version B geändert wurde (durch "Commits").
Die Analogie: Ein normaler Schüler lernt nur die fertige Formel. Unser Schüler sieht den ganzen Rechenweg, die Fehler, die Korrekturen und die Evolution der Idee. So lernt er, warum Code so geschrieben ist, nicht nur wie.

2. Die Mittlere Phase: Der "Gedanken-Trainingslager" (Mid-Training)

Jetzt wird es spannend. Die KI lernt nicht mehr nur Code, sondern Logik und Agenten-Verhalten.

Das Szenario: Stell dir vor, die KI muss einen komplexen Auftrag lösen, bei dem sie Fehler macht, sich korrigiert und neue Werkzeuge benutzt.
Der Vergleich: Es ist wie ein Flugtraining für Piloten. Zuerst fliegt sie in einem Simulator mit kurzen Strecken (32.000 Zeichen Kontext). Dann übt sie in einem Simulator für Langstreckenflüge (128.000 Zeichen), wo sie ganze Flugpläne über riesige Datenmengen hinweg im Kopf behalten muss. Sie lernt, nicht nur zu fliegen, sondern auch bei Turbulenzen (Fehlern) ruhig zu bleiben und den Kurs zu korrigieren.

3. Die Spezialisierung: Zwei verschiedene Karrierewege (Post-Training)

Am Ende der Ausbildung teilt sich die KI in zwei verschiedene Persönlichkeiten auf, je nachdem, was du brauchst:

Der "Denker" (Thinking Path):
- Was er macht: Er denkt laut nach, bevor er antwortet. Er plant, probiert Lösungen im Kopf durch und korrigiert sich selbst.
- Wann du ihn brauchst: Wenn du ein extrem schwieriges Rätsel hast, einen komplexen Bug in einer riesigen Software findest oder einen Wettbewerb programmieren musst. Er ist wie ein Schachgroßmeister, der 20 Züge im Voraus plant.
Der "Assistent" (Instruct Path):
- Was er macht: Er ist schnell, höflich und führt Anweisungen direkt aus.
- Wann du ihn brauchst: Wenn du schnell einen kleinen Code-Schnipsel brauchst, eine Erklärung willst oder eine Datei umschreiben musst. Er ist wie ein effizienter Sekretär, der sofort loslegt.

4. Das Genie-Feature: Der "Loop" (Schleifen-Mechanismus)

Eine der größten Innovationen ist die Loop-Variante (z. B. IQuest-Coder-V1-40B-Loop).

Das Problem: Normalerweise braucht ein sehr kluger Computer (40 Milliarden Parameter) eine riesige, teure Maschine, um zu laufen.
Die Lösung: Der "Loop" ist wie ein kluger Handwerker, der denselben Werkzeugkasten mehrmals nutzt. Anstatt den gesamten Prozess in einem riesigen Durchgang zu machen, läuft die KI in einer Schleife. Sie schaut sich einen Teil des Codes an, denkt nach, passt ihn an, schaut ihn sich noch einmal an und verbessert ihn weiter.
Der Vorteil: Du bekommst die Intelligenz eines riesigen Supercomputers, aber du kannst ihn auf einer viel kleineren, günstigeren Maschine laufen lassen. Es ist wie ein Schweizer Taschenmesser, das sich immer wieder neu formt, um genau das zu tun, was gerade nötig ist.

🏆 Warum ist das so wichtig? (Die Ergebnisse)

In den Tests (den "Prüfungen") hat sich IQuest-Coder-V1 als besser als fast alle anderen erwiesen, sogar besser als die teuersten, geschlossenen Modelle von großen Tech-Firmen.

Bei komplexen Aufgaben: Wenn es darum geht, ganze Software-Projekte zu reparieren (wie in SWE-Bench), ist er der Beste. Er versteht den Kontext wie ein erfahrener Senior-Entwickler.
Bei Werkzeugen: Er kann nicht nur Code schreiben, sondern auch Befehle im Terminal geben, Datenbanken abfragen und Webseiten steuern. Er ist ein echter Agent, der Dinge tut, nicht nur Texte schreibt.
Sicherheit: Er ist so trainiert, dass er nicht auf böswillige Befehle hereinfällt, aber trotzdem hilfsbereit bleibt.

Zusammenfassung in einem Satz

IQuest-Coder-V1 ist wie ein junger Programmier-Assistent, der nicht nur Code auswendig gelernt hat, sondern die Entwicklungsgeschichte von Software verstanden hat, in einem Trainingslager für Logik geschult wurde und nun entweder als tiefgründiger Denker oder als schneller Helfer agieren kann – und das alles mit einer cleveren Technik, die ihn auch auf kleineren Computern extrem leistungsfähig macht.

Die Forscher haben alle ihre Trainingsdaten und Modelle für die Öffentlichkeit freigegeben, damit jeder lernen kann, wie man solche "intelligenten Agenten" baut.

IQuest-Coder-V1 Technical Report

🚀 Die Geschichte vom "Super-Programmierer", der lernt, wie ein echter Mensch

1. Die Grundausbildung: Vom Anfänger zum Handwerker (Pre-Training)

2. Die Mittlere Phase: Der "Gedanken-Trainingslager" (Mid-Training)

3. Die Spezialisierung: Zwei verschiedene Karrierewege (Post-Training)

4. Das Genie-Feature: Der "Loop" (Schleifen-Mechanismus)

🏆 Warum ist das so wichtig? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Der "Code-Flow" Multi-Stage Trainingsparadigma

A. Pre-Training & High-Quality Annealing

B. Dual-Phase Mid-Training

C. Bifurkiertes Post-Training (Zweigspaltung)

D. Effiziente Architekturen: LoopCoder

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

IQuest-Coder-V1 Technical Report

🚀 Die Geschichte vom "Super-Programmierer", der lernt, wie ein echter Mensch

1. Die Grundausbildung: Vom Anfänger zum Handwerker (Pre-Training)

2. Die Mittlere Phase: Der "Gedanken-Trainingslager" (Mid-Training)

3. Die Spezialisierung: Zwei verschiedene Karrierewege (Post-Training)

4. Das Genie-Feature: Der "Loop" (Schleifen-Mechanismus)

🏆 Warum ist das so wichtig? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Der "Code-Flow" Multi-Stage Trainingsparadigma

A. Pre-Training & High-Quality Annealing

B. Dual-Phase Mid-Training

C. Bifurkiertes Post-Training (Zweigspaltung)

D. Effiziente Architekturen: LoopCoder

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents