OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Each language version is independently generated for its own context, not a direct translation.

OpenSeeker: Wie ein akademisches Team die „Suchmaschinen-Elite" herausfordert

Stellen Sie sich das Internet als einen riesigen, chaotischen Ozean voller Informationen vor. Früher war es wie ein einfaches Angeln: Man warf einen Haken (eine Suchanfrage) aus und hoffte, einen Fisch zu fangen. Heute, im Zeitalter der Künstlichen Intelligenz (KI), brauchen wir aber keine Angler mehr, sondern Tiefseetaucher, die komplexe Missionen erfüllen: Sie müssen durch Strömungen navigieren, verschiedene Tauchgänge verbinden und Beweise aus verschiedenen Tiefen zusammenfügen, um die richtige Antwort zu finden.

Bisher war das Tauchen mit den besten Ausrüstungen (den fortschrittlichsten KI-Agenten) ein Geheimclub. Nur riesige Tech-Konzerne wie Google oder OpenAI hatten die teuren Tauchanzüge und die perfolen Karten. Die Wissenschaftler draußen an der Küste hatten zwar gute Ideen, aber keine hochwertigen Trainingsdaten, um ihre eigenen Taucher zu schulen.

OpenSeeker ist nun der erste Versuch eines rein akademischen Teams, diese Barriere zu durchbrechen. Sie haben nicht nur einen neuen Taucher gebaut, sondern die gesamte Bauanleitung und die Trainingskarten kostenlos für alle veröffentlicht.

Hier ist, wie sie es gemacht haben, einfach erklärt:

1. Der Trick mit dem „Falschen Suchschein" (Faktenbasierte Frage-Erstellung)

Normalerweise lernen KIs, indem sie Millionen von Fragen und Antworten auswendig lernen. Das Problem: Oft raten sie nur oder nutzen oberflächliche Muster.

OpenSeeker macht es anders. Stellen Sie sich vor, Sie wollen jemanden trainieren, der einen Schatz findet.

Der alte Weg: Man gibt dem Schüler eine Karte und sagt: „Finde den Schatz." Der Schüler sucht einfach nur den nächsten Punkt.
Der OpenSeeker-Weg: Die Forscher nehmen eine echte Landkarte des Internets (das „Web-Graph"). Sie wählen einen zufälligen Punkt aus, folgen den Pfaden zu verbundenen Inseln und erstellen daraus ein komplexes Rätsel.
Der Clou: Sie verschleiern die Namen der Orte (z. B. statt „Berlin" sagen sie „die Hauptstadt, wo das Brandenburger Tor steht"). Der KI-Agent kann die Antwort nicht einfach googeln; er muss wie ein Detektiv mehrere Schritte gehen: Von A zu B, dann zu C, um D zu finden.
Das Ergebnis: Die KI lernt nicht auswendig, sondern logisches Denken. Sie wird gezwungen, den Weg selbst zu finden, weil die Frage so konstruiert ist, dass nur ein mehrstufiger Suchprozess funktioniert.

2. Der „Rauschfilter" für die Gedanken (Entrauschte Trajektorien-Synthese)

Wenn ein KI-Agent im Internet sucht, stößt er auf eine Flut an Informationen: Werbung, irrelevante Texte, alte Seiten. Das ist wie ein Taucher, der durch eine trübe Wasserwand schwimmt und nichts sieht.

Das Problem: Wenn man der KI zeigt, wie ein Experte sucht, aber dabei auch den ganzen „Wassertrubel" (die rohen, ungesäuberten Suchergebnisse) mitliefert, lernt die KI, sich von dem Lärm ablenken zu lassen.
Die OpenSeeker-Lösung: Sie nutzen einen zweistufigen Prozess, wie einen Lehrer und einen Schüler:
1. Der Lehrer (Synthese): Der Lehrer sieht die Suchergebnisse, fasst sie kurz und klar zusammen („Hier ist das Wichtigste") und trifft dann die perfekte Entscheidung. Er lernt in einer sauberen Umgebung.
2. Der Schüler (Training): Der Schüler bekommt nicht die saubere Zusammenfassung, sondern den rohen, chaotischen Originaltext. Er muss aber trotzdem die gleiche Entscheidung wie der Lehrer treffen.
Der Effekt: Der Schüler muss lernen, den „Lärm" im Kopf zu filtern und das Wesentliche herauszufiltern. Er trainiert quasi seine „Gedankenschärfe", um trotz des Chaos die richtige Antwort zu finden.

Warum ist das so wichtig?

Bisher mussten Firmen riesige Rechenzentren und Millionen von Dollar investieren, um solche Agenten zu bauen. OpenSeeker zeigt nun etwas Erstaunliches:

Sie haben nur 11.700 dieser speziell erstellten, hochqualitativen Trainingsbeispiele benötigt (im Vergleich zu Millionen bei anderen).
Sie haben die KI nur einmal trainiert (ohne komplizierte Nachjustierungen).
Das Ergebnis: Ihr „OpenSeeker"-Agent ist in Tests (wie dem „BrowseComp") besser oder mindestens so gut wie die Agenten von Giganten wie Alibaba (Tongyi DeepResearch) oder OpenAI, obwohl er nur mit einer einfachen Trainingsmethode (SFT) gearbeitet hat.

Die Botschaft

OpenSeeker ist wie ein offenes Kochbuch, das zeigt, wie man den besten Koch der Welt wird. Bisher hielten die Spitzenköche ihre Rezepte geheim. OpenSeeker sagt: „Hier ist das Rezept, hier sind die Zutaten, hier ist die Technik. Jeder kann es nachkochen."

Indem sie die gesamten Daten und das Modell kostenlos veröffentlichen, wollen sie verhindern, dass die Zukunft der KI-Suche nur noch in den Händen weniger Konzerne liegt. Sie wollen, dass Forscher, Studenten und kleine Teams weltweit mitarbeiten können, um die KI-Suche für alle zu verbessern.

Kurz gesagt: OpenSeeker hat bewiesen, dass man nicht unbedingt der größte Konzern sein muss, um die besten Such-Agenten zu bauen – man braucht nur die richtigen, cleveren Daten. Und jetzt gibt er diese Daten an alle weiter.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung von hochleistungsfähigen Such-Agenten für Large Language Models (LLMs) ist derzeit fast ausschließlich großen Industrieunternehmen vorbehalten. Der Hauptgrund hierfür ist der Mangel an transparenten, hochwertigen Trainingsdaten. Während kommerzielle Modelle (z. B. von OpenAI, Google, Alibaba) über proprietäre Datenmengen und komplexe Trainingspipelines (Continual Pre-Training, RL) verfügen, fehlt der akademischen Gemeinschaft an vollständigen, qualitativ hochwertigen Datensätzen. Bestehende Open-Source-Modelle öffnen oft nur die Gewichte, nicht aber die Daten, oder die verfügbaren Daten sind von geringer Qualität und führen zu nicht wettbewerbsfähigen Ergebnissen. Dies hat die Innovation in der Open-Source-Community für Such-Agenten gehemmt.

2. Methodik

OpenSeeker adressiert dieses Problem durch die Einführung eines vollständig open-source Such-Agenten, der durch zwei zentrale technische Innovationen bei der Datengenerierung ermöglicht wird. Das Ziel ist die Synthese eines hochfidenen Datensatzes $D = \{(q, y, \tau^*)\}$ , bestehend aus komplexen Abfragen ( $q$ ), Ground-Truth-Antworten ( $y$ ) und optimalen Werkzeug-Nutzungspfaden ( $\tau^*$ ).

A. Faktenbasierte, skalierbare und kontrollierbare QA-Synthese (Fact-Grounded Scalable Controllable QA Synthesis)

Dieser Ansatz reverse-engineert das Web-Graph-Netzwerk, um komplexe, mehrstufige Reasoning-Aufgaben zu generieren, anstatt sich auf oberflächliches Muster-Matching zu verlassen. Der Prozess umfasst:

Graph-Expansion: Ausgehend von einem zufällig gewählten Startknoten (Seed Page) wird ein Subgraph durch topologische Expansion erstellt, um verbundene Informationscluster zu identifizieren.
Entitäten-Extraktion: Wichtige Themen und Entitäten werden aus dem Subgraph extrahiert und in einen strukturierten „Entity Subgraph" verdichtet, um Text-Rauschen zu entfernen.
Fragen-Generierung & Obfuskation: Eine Generator-LLM erstellt eine initiale Frage, die das Durchlaufen mehrerer Kanten im Graph erfordert. Um direkte Such-Shortcuts zu verhindern, werden die Entitäten im Graph „obfuskiert" (verschwommen/descriptiv umformuliert). Dies zwingt den Agenten zu mehrstufigem Navigieren und Disambiguierung.
Dual-Criteria Verification: Die generierten Paare werden durch zwei Kriterien gefiltert:
- Schwierigkeit: Ein Basis-Modell muss die Frage ohne externe Tools nicht lösen können.
- Lösbarkeit: Ein Modell mit vollem Kontext des Entity-Subgraphs muss die Antwort ableiten können (logische Konsistenz).

B. Entrauschte Trajektorien-Synthese (Denoised Trajectory Synthesis)

Um Agenten beizubringen, mit dem Rauschen realer Web-Inhalte umzugehen, wird eine asymmetrische Trainingsstrategie angewendet:

Synthese (Lehrer-Modell): Während der Generierung der Lösungspfade wird ein retrospektiver Zusammenfassungsmechanismus verwendet. Nach jedem Tool-Call wird die rohe Antwort des vorherigen Schritts komprimiert und als „zusammengefasster Kontext" für den nächsten Schritt verwendet. Dies ermöglicht dem Lehrer-Modell, hochwertige Reasoning-Pfade auf einem sauberen Kontext zu generieren.
Training (Schüler-Modell): Für das finale Training wird der saubere Kontext entfernt. Das Modell wird darauf trainiert, die optimalen Aktionen und Reasoning-Schritte (die vom Lehrer generiert wurden) basierend auf dem rohen, verrauschten historischen Kontext vorherzusagen. Dies zwingt den Agenten, intrinsische Fähigkeiten zur Entnahme relevanter Informationen aus verrauschten Daten zu lernen.

3. Schlüsselbeiträge

Erste vollständig open-source Lösung: OpenSeeker ist das erste Projekt eines rein akademischen Teams, das State-of-the-Art (SOTA) Leistungen auf Frontier-Such-Benchmarks erreicht und dabei den gesamten Syntheseprozess, den finalen Trainingsdatensatz (QA-Paare und Trajektorien) sowie die Modellgewichte open-sourct.
Innovative Datengenerierung: Die vorgestellten Methoden (QA-Synthese und Entrauschung) ermöglichen die automatische Erstellung von Trainingsdaten mit kontrollierbarer Komplexität und hoher faktischer Genauigkeit.
Effizienz: Das Modell wurde nur einmal mit einfachen Supervised Fine-Tuning (SFT) auf einem Datensatz von nur 11.7k synthetisierten Proben trainiert, ohne iterative Verfeinerung oder Hyperparameter-Optimierung.

4. Ergebnisse

OpenSeeker (basierend auf Qwen3-30B-A3B) wurde auf vier Benchmarks evaluiert und zeigt beeindruckende Ergebnisse, die oft industrielle Konkurrenten übertreffen:

BrowseComp-ZH (Chinesisch): OpenSeeker erreicht 48,4 % und übertrifft damit Alibabas Tongyi DeepResearch (46,7 %), welches ein komplexes Training mit CPT, SFT und RL durchlaufen hat. OpenSeeker nutzt nur SFT.
BrowseComp (Englisch): Mit 29,5 % deutlich besser als das zweitbeste Open-Source-Modell DeepDive (15,3 %).
xbench-DeepSearch: Erreicht 74,0 %.
WideSearch: Erreicht 59,4 % (Item F1).

Im Vergleich zu anderen SFT-basierten Modellen ähnlicher Größe (~30B Parameter) zeigt OpenSeeker die beste Durchschnittsleistung. Selbst bei vergleichbaren Datenmengen (ca. 11.7k vs. 10k-15k Samples) übertrifft OpenSeeker Kombinationen bestehender Datensätze signifikant.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass strategische Datensynthese die Leistungslücke zwischen akademischen und industriellen Such-Agenten schließen kann.

Demokratisierung: Durch die Freigabe der gesamten Datenpipeline wird das „Daten-Moat" der Industrie aufgebrochen und ermöglicht der Forschungscommunity den Zugang zu Trainingsdaten von Frontier-Qualität.
Qualität vor Quantität: Die Ergebnisse belegen, dass hochwertige, synthetisierte Daten (insbesondere durch Entrauschung und kontrollierte Komplexität) effektiver sind als große Mengen an minderwertigen oder nicht optimierten Daten.
Zukunft: Die Autoren planen, die Datenmenge zu erhöhen, die Filterung zu verfeinern und die Agenten-Fähigkeiten durch Integration weiterer Tools zu erweitern.

Zusammenfassend stellt OpenSeeker einen Meilenstein dar, der zeigt, dass transparente, akademisch entwickelte Such-Agenten mit industriellen Lösungen konkurrieren können, wenn die Datenqualität durch innovative Synthesemethoden sichergestellt wird.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

1. Der Trick mit dem „Falschen Suchschein" (Faktenbasierte Frage-Erstellung)

2. Der „Rauschfilter" für die Gedanken (Entrauschte Trajektorien-Synthese)

Warum ist das so wichtig?

Die Botschaft

1. Problemstellung

2. Methodik

A. Faktenbasierte, skalierbare und kontrollierbare QA-Synthese (Fact-Grounded Scalable Controllable QA Synthesis)

B. Entrauschte Trajektorien-Synthese (Denoised Trajectory Synthesis)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers