Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas chaotischen Bibliothekar namens KI. In der Vergangenheit war dieser Bibliothekar gut darin, dir ein einzelnes Buch zu geben, wenn du nach einem einfachen Fakt suchtest (z. B. „Wie alt ist der Eiffelturm?"). Aber was passiert, wenn du eine komplexe Frage stellst wie: „Wie hat sich der Sport auf die Gesellschaft ausgewirkt, besonders bei den Gehältern der Athleten, der Inklusion und der Geschäftswelt?"

Hier kommt der TREC 2025 RAG-Wettbewerb ins Spiel. „RAG" steht für Retrieval Augmented Generation – auf Deutsch etwa: „Wissensgestützte Texterstellung".

Hier ist eine einfache Erklärung dessen, was in diesem Papier passiert, mit ein paar kreativen Vergleichen:

1. Der große Wandel: Vom Suchbegriff zur Geschichte

Früher fragten Menschen die KI wie einen Suchmaschinen-Befehl: „Sport, Gehälter, Frauen."
Dieses Jahr hat der Wettbewerb die Regeln geändert. Die Teilnehmer mussten Systeme bauen, die auf langen, komplexen Geschichten (Narrativen) antworten.

Die Analogie: Stell dir vor, früher hast du dem Bibliothekar nur ein Zettelchen mit drei Stichworten gegeben. Dieses Jahr hast du ihm einen ganzen Brief geschrieben, in dem du erklärst, dass du verstehen willst, wie Sport die Gesellschaft formt, wie sich Ausrüstung verändert und warum manche Sportarten beliebter sind als andere. Die KI muss nun nicht nur ein Buch finden, sondern die Geschichte verstehen und eine zusammenhängende Antwort schreiben.

2. Die vier Aufgaben des Wettbewerbs

Die Teilnehmer mussten ihre KI-Systeme in vier verschiedenen Disziplinen testen lassen:

Die Suche (Retrieval): Der Bibliothekar muss die richtigen Bücher aus einer riesigen Bibliothek (der MS MARCO-Datenbank) finden.
Die Antwort (Generation): Der Bibliothekar muss die Informationen aus den Büchern in einen verständlichen Text umwandeln.
Die Kombination (RAG): Das System muss beides selbstständig tun: erst suchen, dann schreiben.
Das Urteil (Relevance Judgment): Eine neue Aufgabe, bei der geprüft wurde, wie gut die KI einschätzen kann, ob ein Buch wirklich zur Frage passt.

3. Wie wurde bewertet? (Der strenge Prüfer)

Das ist der spannendste Teil. Wie weiß man, ob die KI wirklich eine gute Antwort gegeben hat? Die Organisatoren haben ein mehrstufiges Bewertungssystem entwickelt, das man sich wie einen Qualitäts-Check für einen Koch vorstellen kann:

Schritt 1: Die Zerlegung (Sub-Narratives):
Die komplexe Frage wird in kleine, handliche Stücke zerlegt.
- Beispiel: Die große Frage über Sport wird in kleine Fragen aufgeteilt: „Wie sieht es mit den Gehältern aus?", „Wie ist die Inklusion?", „Was sagt die Wirtschaft dazu?".
- Analogie: Ein Koch wird nicht nur gefragt, ob das Essen schmeckt, sondern ob er auch das Fleisch, das Gemüse und die Soße separat perfekt zubereitet hat.
Schritt 2: Die Faktenprüfung (Support Evaluation):
Jede einzelne Satz in der Antwort der KI wird geprüft.
- Die Regel: Wenn die KI schreibt: „Frauenathleten verdienen weniger", muss sie genau angeben, aus welchem Buch (welchem Dokument) sie das weiß.
- Der Test: Ein Prüfer (oder eine andere KI) schaut in das genannte Buch.
  - Vollständige Unterstützung: Das Buch sagt genau das. (Gute Note!)
  - Teilweise Unterstützung: Das Buch sagt etwas Ähnliches, aber nicht genau das. (Mittel.)
  - Keine Unterstützung: Das Buch hat nichts damit zu tun. (Die KI halluziniert oder lügt.)
Schritt 3: Die Abdeckung (Coverage):
Hat die KI alle wichtigen Teile der ursprünglichen Geschichte beantwortet? Wenn die Frage fünf Aspekte hatte, aber die Antwort nur zwei erwähnt, ist sie unvollständig.

4. Die Ergebnisse: Was haben wir gelernt?

Mensch vs. Maschine: Die Organisatoren haben geprüft, ob Computer (KIs) die Bewertungen von echten Menschen ersetzen können. Das Ergebnis: Bei großen Trends (welches System ist insgesamt besser?) sind die Computer sehr gut. Aber bei feinen Details (ist dieser eine Satz wirklich korrekt?) machen sie noch Fehler.
Die Herausforderung: Es ist sehr schwer, eine KI zu bauen, die nicht nur Informationen findet, sondern sie auch logisch verknüpft, fair bewertet und jede Aussage belegt.
Der Gewinner: Die besten Systeme waren solche, die nicht nur schnell suchten, sondern die „Geschichte" des Nutzers wirklich verstanden und ihre Antworten mit klaren Quellenangaben (Zitaten) untermauerten.

Zusammenfassung

Der TREC 2025 RAG-Wettbewerb war wie ein Olympia für KI-Bibliothekare. Das Ziel war nicht mehr nur, schnell das richtige Buch zu finden, sondern eine vertrauenswürdige, gut recherchierte und vollständige Geschichte zu erzählen, die auf echten Fakten basiert.

Die Botschaft für die Zukunft ist klar: Damit KI uns im echten Leben hilft (z. B. bei medizinischen Fragen oder rechtlichen Problemen), muss sie nicht nur „wissen", sondern auch beweisen können, woher sie ihr Wissen hat, und komplexe Zusammenhänge verstehen.

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

1. Der große Wandel: Vom Suchbegriff zur Geschichte

2. Die vier Aufgaben des Wettbewerbs

3. Wie wurde bewertet? (Der strenge Prüfer)

4. Die Ergebnisse: Was haben wir gelernt?

Zusammenfassung

Technische Zusammenfassung: TREC 2025 RAG Track

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities