BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

🚗 Die große Reise: Vom Reparatur-Handwerker zum Architekten

Stell dir vor, du hast einen Roboter-Mechaniker (das ist der aktuelle KI-Code-Agent), der darauf trainiert wurde, Autos zu reparieren.

Das bisherige Problem:
Bisher haben wir diesen Roboter nur in einer garage getestet, in der er nur einen einzigen, spezifischen Defekt an einem einzigen Auto beheben musste.

Beispiel: „Das Licht im linken Scheinwerfer von Auto Nr. 5 ist kaputt. Hier ist das Handbuch für dieses Auto. Bitte tausche die Birne."
Die KI war darin ziemlich gut. Aber das ist nicht das echte Leben!

Die neue Realität (BeyondSWE):
Im echten Leben ist ein Software-Ingenieur nie nur in einer Garage. Er muss:

Über die Grenzen schauen: Er muss wissen, wie andere Autos (andere Software-Projekte) gebaut sind, um Lösungen zu kopieren.
Fachwissen haben: Er muss verstehen, wie ein Motor aus der Formel-1 funktioniert (wissenschaftliche Domänen wie Quantenphysik), nicht nur wie ein normaler Motor läuft.
Alles umrüsten: Wenn die Reifenhersteller plötzlich neue Reifen machen (Updates von Bibliotheken wie NumPy oder Pydantic), muss er alle Autos im Park umrüsten, nicht nur eines.
Neu bauen: Er muss manchmal ein ganz neues Auto von Grund auf bauen, nur basierend auf einer Skizze auf einem Zettel (ein Dokument), ohne dass ein Auto schon da ist.

Die Forscher haben sich gefragt: Kann unser Roboter-Mechaniker das auch?

📏 Der neue Prüfstand: BeyondSWE

Um das herauszufinden, haben die Autoren einen neuen, viel härteren Prüfstand namens BeyondSWE gebaut. Statt nur einen kleinen Defekt zu reparieren, haben sie 500 echte, knifflige Aufgaben gestellt, die in vier Kategorien unterteilt sind:

Der Detektiv (CrossRepo): „Das Problem liegt in deinem Auto, aber die Lösung findest du im Handbuch eines anderen Autos."
Der Spezialist (DomainFix): „Repariere dieses Auto, aber du musst verstehen, wie Quantenmechanik funktioniert."
Der Umzugs-Manager (DepMigrate): „Wir wechseln von alten zu neuen Reifen. Bitte rüste alle 100 Autos im Park so um, dass sie mit den neuen Reifen fahren können."
Der Architekt (Doc2Repo): „Hier ist eine Skizze für ein neues Auto. Baue es komplett neu, ohne dass ein Schrauber schon da war."

📉 Das Ergebnis: Die KI stolpert

Das Ergebnis war ernüchternd: Selbst die klügsten Roboter (die fortschrittlichsten KI-Modelle) scheiterten an fast der Hälfte dieser Aufgaben.

Sie schafften es nur in 45 % der Fälle.
Es gab keinen „Super-Roboter", der bei allen Aufgaben gut war. Manche waren gut beim Umrüsten, aber schlecht beim Bauen von Grund auf.

Das zeigt: Unsere KIs sind wie ausgezeichnete Schrauber, die aber noch keine echten Ingenieure sind. Ihnen fehlt das große Ganze.

🔍 Die Lösung? Ein Such-Assistent (SearchSWE)

Die Forscher dachten: „Vielleicht fehlt ihnen nur die Fähigkeit, im Internet nachzuschauen, wie man das macht."
Also bauten sie SearchSWE. Das ist wie ein Roboter, der nicht nur schraubt, sondern auch ein Smartphone hat, mit dem er Google, Foren und Handbücher durchsucht, während er arbeitet.

Das überraschende Ergebnis:
Das Smartphone half nicht immer!

Manchmal war es super hilfreich (z. B. bei Fachwissen).
Aber oft verwirrte es den Roboter. Er las zu viel, fand widersprüchliche Informationen oder alte Handbücher für neue Autos und baute dann etwas Falsches.
Es ist, als würdest du einem Schrauber sagen: „Suche im Internet nach einer Lösung", und er liest dann 50 verschiedene Forenbeiträge, verliert den Fokus und vergisst, wie das Werkzeug in seiner Hand aussieht.

💡 Die große Erkenntnis

Die Arbeit sagt uns:

Code allein reicht nicht: KIs müssen lernen, wie echte Entwickler zu denken – also zu suchen, zu lesen, zu zweifeln und dann zu bauen.
Suchen und Bauen sind noch nicht vereint: Unsere KIs können gut suchen ODER gut bauen, aber sie können beides noch nicht gut gleichzeitig kombinieren.
Die Zukunft: Wir brauchen KIs, die nicht nur Code tippen, sondern wie ein erfahrener Ingenieur arbeiten: Sie wissen, wann sie nachschauen müssen, wann sie das Handbuch ignorieren sollen und wie sie das Gesehene in die Tat umsetzen.

Kurz gesagt: Unsere KI-Programmierer sind noch keine „Senior Engineers". Sie sind fleißige Lehrlinge, die gerade lernen, dass das echte Leben viel komplexer ist als eine einzelne Garage. Der Weg dorthin ist lang, aber dieser neue Prüfstand (BeyondSWE) zeigt uns genau, wo sie noch üben müssen.

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

🚗 Die große Reise: Vom Reparatur-Handwerker zum Architekten

📏 Der neue Prüfstand: BeyondSWE

📉 Das Ergebnis: Die KI stolpert

🔍 Die Lösung? Ein Such-Assistent (SearchSWE)

💡 Die große Erkenntnis

1. Problemstellung

2. Methodik

A. BeyondSWE: Ein neues Benchmark

B. SearchSWE: Ein Framework für Such-Integration

3. Wichtige Beiträge

4. Ergebnisse

A. Leistungslücke (Capability Gap)

B. Die Diskrepanz zwischen Suche und Codierung

5. Bedeutung und Ausblick

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

🚗 Die große Reise: Vom Reparatur-Handwerker zum Architekten

📏 Der neue Prüfstand: BeyondSWE

📉 Das Ergebnis: Die KI stolpert

🔍 Die Lösung? Ein Such-Assistent (SearchSWE)

💡 Die große Erkenntnis

1. Problemstellung

2. Methodik

A. BeyondSWE: Ein neues Benchmark

B. SearchSWE: Ein Framework für Such-Integration

3. Wichtige Beiträge

4. Ergebnisse

A. Leistungslücke (Capability Gap)

B. Die Diskrepanz zwischen Suche und Codierung

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics