Evaluating the Search Agent in a Parallel World

Each language version is independently generated for its own context, not a direct translation.

🌍 Das Problem: Der Wissens-Dschungel und die vergessenen Fakten

Stell dir vor, du hast einen super-intelligenten Roboter (eine KI), der alles über die Welt weiß, was bis zu einem bestimmten Datum in der Vergangenheit passiert ist. Aber die Welt dreht sich weiter! Neue Nachrichten kommen jeden Tag hinzu, und alte Fakten ändern sich (z. B. wer gerade Fußballmeister ist oder wie hoch die Aktienkurse stehen).

Wenn man diesen Roboter heute testet, passiert oft eines von drei Dingen:

Der Roboter weiß es schon: Er antwortet aus seinem Gedächtnis, ohne wirklich zu suchen. Das ist wie eine Prüfung, bei der er die Antworten schon auswendig gelernt hat.
Die Antworten sind veraltet: Das Internet ändert sich so schnell, dass die "richtige" Antwort von heute morgen morgen schon falsch ist.
Die Suche ist chaotisch: Echte Suchmaschinen sind wie ein riesiger, lauter Basar. Manchmal findet man das, was man sucht, manchmal nicht, und es ist schwer zu sagen, ob der Roboter wirklich gut sucht oder nur Glück hatte.

Die Forscher von Li Auto sagen: "So können wir die echten Fähigkeiten eines Such-Roboters nicht fair testen."

🪄 Die Lösung: Die "Parallel-Welt" (Mind-ParaWorld)

Um das zu lösen, haben sie eine geniale Idee entwickelt: Sie bauen eine Parallel-Welt.

Stell dir das wie ein Rollen-Spiel (RPG) vor, das sie für den Roboter erschaffen haben:

Die Zukunft ist noch nicht passiert: Sie nehmen echte Namen (z. B. einen Fußballspieler wie Nico Williams) und erfinden eine Geschichte für die Zukunft (z. B. die Saison 2027/28). Da der Roboter noch nicht in der Zukunft leben kann, kennt er die Antworten nicht auswendig. Er muss suchen.
Die "Naturgesetze" dieser Welt: Bevor das Spiel beginnt, schreiben die Forscher ein kleines Regelbuch (die "Atomic Facts"). Das sind die unumstößlichen Fakten dieser Parallel-Welt.
- Beispiel: "In der Parallel-Welt 2027 hat Nico Williams genau 11 Tore geschossen."
- Das ist die einzige Wahrheit in diesem Universum.
Der Such-Assistent (PEM): Anstatt den Roboter auf das echte, chaotische Internet loszulassen, gibt man ihm einen simulierten Such-Assistenten. Dieser Assistent kennt das Regelbuch.
- Wenn der Roboter eine dumme, zu breite Frage stellt ("Wer hat mehr Tore geschossen?"), gibt der Assistent nur vage Antworten oder Rauschen.
- Wenn der Roboter die Frage zerlegt und präzise fragt ("Wie viele Tore hat Nico Williams in der Saison 2027 geschossen?"), liefert der Assistent die exakte Zahl aus dem Regelbuch.

Die Metapher:
Stell dir vor, du bist in einem Labyrinth.

In der echten Welt ist das Labyrinth chaotisch, die Wände bewegen sich, und manchmal gibt es keine Wände (Fakten ändern sich).
In der Parallel-Welt ist das Labyrinth fest gebaut. Es gibt eine einzige, korrekte Route. Der Roboter muss lernen, wie man die richtigen Türen öffnet (die richtigen Fragen stellt), um zum Schatz (der Antwort) zu kommen. Wenn er die falsche Tür aufmacht, passiert nichts.

🧪 Was haben sie herausgefunden? (Die Ergebnisse)

Sie haben viele verschiedene KI-Modelle in dieser Parallel-Welt getestet und drei Dinge festgestellt:

Sie sind gute Rechner, aber schlechte Entdecker: Wenn man den Robotern alle Antworten direkt vor die Nase legt (wie in Setting A), sind sie super schlau und lösen die Rätsel fast perfekt. Sie können Informationen gut zusammenfassen.
Das Problem ist das "Suchen": Sobald sie selbst suchen müssen (Setting C), scheitern viele.
- Sie geben zu früh auf: Viele Roboter antworten, bevor sie genug Informationen gesammelt haben. Sie denken: "Ich habe schon etwas gefunden, das reicht!" – aber es reicht nicht.
- Sie stellen dumme Fragen: Sie fragen oft zu allgemein ("Wie war das Spiel?") statt präzise ("Wie viele Tore schoss Spieler X im 3. Spiel?").
- Sie verlieren den Überblick: Bei komplexen Aufgaben (viele Fakten sammeln) verlieren sie den Faden und sammeln nicht alle notwendigen Puzzleteile.

Die wichtigste Erkenntnis:
Das größte Hindernis für KI ist heute nicht, dass sie nicht denken können, wenn sie die Informationen haben. Das Problem ist, dass sie nicht wissen, wie man die richtigen Fragen stellt und wann man aufhören soll zu suchen.

🚀 Warum ist das wichtig?

Dieser neue Test (MPW-Bench) ist wie ein Führerschein-Prüfstand für Such-KIs.

Er ist fair, weil niemand die Antworten auswendig gelernt hat.
Er ist stabil, weil die "Fakten" in der Parallel-Welt sich nicht ändern.
Er zeigt genau, wo die KI schwächelt: Beim Planen der Suche und beim Sammeln aller Beweise.

Zusammenfassend:
Die Forscher haben eine "Fake-Welt" gebaut, um echte Such-Roboter zu trainieren und zu testen. Sie haben gesehen, dass die Roboter zwar kluge Köpfe sind, aber noch lernen müssen, wie man wie ein echter Detektiv vorgeht: Schritt für Schritt, mit präzisen Fragen und dem Mut, weiterzusuchen, bis man alle Beweise hat.

Evaluating the Search Agent in a Parallel World

🌍 Das Problem: Der Wissens-Dschungel und die vergessenen Fakten

🪄 Die Lösung: Die "Parallel-Welt" (Mind-ParaWorld)

🧪 Was haben sie herausgefunden? (Die Ergebnisse)

🚀 Warum ist das wichtig?

Titel: Evaluating the Search Agent in a Parallel World (Mind-ParaWorld)

1. Problemstellung

2. Methodik: Das Mind-ParaWorld (MPW) Framework

3. Evaluierungs-Settings

4. Wichtige Ergebnisse

5. Beiträge und Bedeutung

Evaluating the Search Agent in a Parallel World

🌍 Das Problem: Der Wissens-Dschungel und die vergessenen Fakten

🪄 Die Lösung: Die "Parallel-Welt" (Mind-ParaWorld)

🧪 Was haben sie herausgefunden? (Die Ergebnisse)

🚀 Warum ist das wichtig?

Titel: Evaluating the Search Agent in a Parallel World (Mind-ParaWorld)

1. Problemstellung

2. Methodik: Das Mind-ParaWorld (MPW) Framework

3. Evaluierungs-Settings

4. Wichtige Ergebnisse

5. Beiträge und Bedeutung

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation