OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Each language version is independently generated for its own context, not a direct translation.

OpenSeeker: De "Open Boek" voor Slimme Zoekmachines

Stel je voor dat het internet een gigantische, onoverzichtelijke bibliotheek is met miljarden boeken. Vroeger waren zoekmachines als simpele bibliothecarissen die alleen zochten op titelwoorden. Maar nu willen we "slimme agenten" die niet alleen zoeken, maar ook nadenken, links volgen, informatie samenvoegen en complexe vragen beantwoorden. Denk aan een detective die een heel dossier oplost door tientallen aanwijzingen te volgen.

Het probleem? De grootste tech-bedrijven (zoals Google en OpenAI) hebben de beste detectives in huis, maar ze houden hun geheimen voor zich. Ze hebben de "geheime recepten" (de trainingsdata) die nodig zijn om deze slimme agenten te leren. Voor de rest van de wereld is het alsof je probeert een meesterkok te worden, maar je mag de recepten van de grote restaurants niet zien.

OpenSeeker is een groep academici die zegt: "Nee, dat is niet eerlijk." Ze hebben een nieuw systeem gebouwd dat net zo goed presteert als die dure, gesloten systemen, maar ze hebben alles openbaar gemaakt: het model, de code en vooral de trainingsdata.

Hier is hoe ze dat gedaan hebben, vertaald in alledaagse termen:

1. Het Recept: Hoe maak je een moeilijke puzzel? (Fact-grounded QA Synthesis)

Om een detective te trainen, moet je hem niet alleen simpele vragen stellen ("Wie is de burgemeester?"). Je moet hem complexe puzzels geven die meerdere stappen vereisen.

Stel je voor dat je een spel ontwerpt:

De Kaart: Ze beginnen met een echte kaart van het internet (een webgraaf).
De Route: Ze kiezen een startpunt en laten een "spoor" van verbonden pagina's ontstaan.
De Verwarring: Vervolgens doen ze alsof ze de namen van de plekken op de kaart vervagen. In plaats van "Ga naar het station", zeggen ze: "Ga naar die plek waar de treinen vertrekken en waar je een koffie kunt kopen."
Het Resultaat: De AI moet nu echt nadenken: "Oké, waar is dat? Ah, het station! En waar is de koffie? Oh, het café naast de ingang."

Dit proces zorgt ervoor dat de AI leert om meerdere stappen te plannen en niet zomaar een antwoord te raden. Het is alsof je iemand leert zwemmen door ze in een zwembad met stroming te zetten, in plaats van in een badje met stil water.

2. De Oefening: Hoe leer je door de ruis heen te kijken? (Denoised Trajectory Synthesis)

Wanneer een AI het internet doorzoekt, krijgt ze duizenden resultaten. Veel daarvan zijn onzin, reclame of herhalingen. Het is alsof je een gesprek probeert te voeren in een drukke fabriekshal.

De Leraar (Teacher): Om de AI te leren wat het juiste antwoord is, gebruiken ze een "leraar". Deze leraar kijkt eerst door de ruis heen, vat de belangrijkste informatie samen en geeft de AI een schone, duidelijke opdracht. De leraar zegt: "Kijk, hier is het antwoord, ignoreer de reclame."
De Leerling (Student): Maar in de echte wereld is er geen leraar die voor je samenvat. Daarom trainen ze de AI (de leerling) op de ruisige, ongesorteerde data. Ze dwingen de leerling om zelf de samenvatting te maken en het juiste antwoord te vinden, ondanks de chaos.

Dit is als een muzikant die eerst oefent met een perfecte opname (de leraar), maar dan moet spelen in een luid café (de leerling) om echt goed te worden.

Waarom is dit zo belangrijk?

Tot nu toe was het bouwen van deze slimme zoekagenten een "gesloten club" voor rijke bedrijven. Ze hadden de beste data en de beste modellen.

De Prestatie: OpenSeeker heeft bewezen dat je met hun openbare data en een simpele trainingsmethode (SFT) net zo goed kunt presteren als die dure systemen. Ze hebben zelfs een model gemaakt dat beter scoort dan een concurrent van Alibaba (Tongyi DeepResearch) op Chinese zoekopdrachten, terwijl die concurrent veel meer middelen en complexere training heeft gebruikt.
De Democratie: Ze hebben niet alleen het model vrijgegeven, maar ook de 11.700 trainingsvoorbeelden. Dit is alsof ze niet alleen de auto hebben gegeven, maar ook de blauwdrukken en de instructiehandleiding.

Kortom:
OpenSeeker is de "open source" revolutie voor slimme zoekmachines. Ze hebben bewezen dat je geen miljarden nodig hebt om een top-detective te maken; je hebt vooral slimme, open data nodig. Ze hebben de poort opengezet zodat elke onderzoeker, student of hobbyist nu kan meedoen aan de bouw van de toekomst van het internet.

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

1. Het Recept: Hoe maak je een moeilijke puzzel? (Fact-grounded QA Synthesis)

2. De Oefening: Hoe leer je door de ruis heen te kijken? (Denoised Trajectory Synthesis)

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie

1. Feit-gebaseerde schaalbare en controleerbare QA-synthese

2. Gedenoiste Traject-synthese

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

1. Het Recept: Hoe maak je een moeilijke puzzel? (Fact-grounded QA Synthesis)

2. De Oefening: Hoe leer je door de ruis heen te kijken? (Denoised Trajectory Synthesis)

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie

1. Feit-gebaseerde schaalbare en controleerbare QA-synthese

2. Gedenoiste Traject-synthese

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers