Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du betreibst einen riesigen, digitalen Bibliothekskomplex für tausende verschiedene Firmen (Multi-Tenant). Jede Firma hat ihre eigenen, einzigartigen Bücher, Handbücher und Notizen (die "Dokumente"). Wenn ein Mitarbeiter eine Frage stellt, muss das System sofort die richtige Seite finden.

Das Problem ist: Die Bibliothekare (die KI-Modelle) kennen die Sprache und die spezifischen Begriffe jeder einzelnen Firma nicht gut genug. Und schlimmer noch: Niemand hat Zeit, für jede Firma manuell Karten zu schreiben, die sagen: "Diese Frage gehört zu dieser Antwort." Diese fehlenden Karten nennt man "dunkle Daten" – wertvolle Informationen, die ungenutzt im Dunkeln liegen.

Außerdem gibt es ein riesiges logistisches Problem: Wenn man den Bibliothekar neu trainiert, muss man oft alle Bücher in der Bibliothek neu einsortieren und neu beschriften. Bei tausenden Firmen mit Millionen von Dokumenten wäre das so teuer und langsam, dass es unmöglich wäre.

Diese Forscher von DevRev haben eine Lösung entwickelt, die wie ein automatisierter, intelligenter Bibliothekars-Assistent funktioniert. Hier ist die Erklärung ihrer Arbeit in einfachen Bildern:

1. Der "Roboter-Karten-Schreiber" (Automatisierte Datensammlung)

Normalerweise müssten Menschen Stunden damit verbringen, Fragen und Antworten zu prüfen. Das ist teuer und langsam.

Die Lösung: Die Forscher bauen eine Pipeline, die wie ein Fischernetz funktioniert. Sie werfen sieben verschiedene Netze (verschiedene Suchalgorithmen) aus, um potenzielle Antworten zu fangen.
Der "Schiedsrichter": Ein sehr kluger KI-Roboter (ein "LLM-as-a-Judge") schaut sich dann die Fänge an. Er filtert den Müll heraus und behält nur die echten Treffer.
Das Ergebnis: Sie haben so einen riesigen, hochwertigen Datensatz namens DevRev-Search erstellt, ohne dass ein einziger Mensch eine Karte handschriftlich geschrieben hat. Es ist, als würde man einen Roboter einstellen, der tausende Bücher liest und automatisch die besten Seiten für jede Frage markiert.

2. Die "Nur-Frage-Optimierung" (Index-Preserving Adaptation)

Das ist der genialste Teil. Normalerweise müsste man, um den Sucher besser zu machen, sowohl den Fragesteller als auch die Bibliothek neu organisieren. Das bedeutet, man müsste alle Bücher neu scannen und neu sortieren (das ist der "Re-Indexing Tax" – eine hohe Steuer an Zeit und Geld).

Die Lösung: Die Forscher sagen: "Lass die Bücher genau so liegen, wie sie sind!" (Der Dokumenten-Index bleibt eingefroren). Sie trainieren nur den Kopf des Fragestellers (den Query-Encoder).
Die Analogie: Stell dir vor, du hast eine Bibliothek, in der die Bücher in einem festen Regal stehen. Statt die Bücher umzulegen, gibst du dem Besucher (der Suchanfrage) eine neue, schärfere Brille. Mit dieser Brille sieht er die richtigen Bücher sofort, auch wenn die Bücher selbst unverändert im Regal stehen.
Der Vorteil: Das geht extrem schnell und ist billig. Man kann für jede Firma eine individuelle "Brille" herstellen, ohne das ganze Regal neu zu bauen.

3. Der "Schlankheits-Kurs" (Parameter-Effizientes Fein-Tuning)

Man könnte denken: "Wenn wir nur den Fragesteller trainieren, brauchen wir vielleicht immer noch riesige Rechenpower."

Die Lösung: Sie nutzen eine Technik namens LoRA (Low-Rank Adaptation). Stell dir das vor wie das Anbringen von kleinen, cleveren Aufklebern auf einem riesigen, schweren Motor, statt den ganzen Motor zu ersetzen.
Die Wirkung: Diese kleinen Aufkleber (wenige zusätzliche Parameter) reichen aus, um den Motor (das KI-Modell) so anzupassen, dass er fast so gut läuft wie ein komplett neuer Motor, aber mit einem Bruchteil des Aufwands. Es ist wie das Hinzufügen eines Turbo-Booster-Chips zu einem alten Auto, anstatt ein neues Auto zu kaufen.

Zusammenfassung

Die Forscher haben bewiesen, dass man in großen, komplexen Umgebungen (wie Unternehmenssuchmaschinen) nicht alles neu erfinden muss.

Sie nutzen KI, um automatisch Trainingsdaten zu erstellen (wie ein automatischer Bibliothekskurator).
Sie trainieren nur die Suchanfrage, nicht die Dokumente (wie das Geben einer neuen Brille, ohne die Bücher zu bewegen).
Sie nutzen sparsame Anpassungstechniken (wie kleine Turbo-Aufkleber), um maximale Leistung bei minimalem Aufwand zu erzielen.

Das Ergebnis ist ein System, das für tausende Firmen gleichzeitig funktioniert, schnell neue Anpassungen zulässt und dabei die Kosten drastisch senkt, ohne dass die Suchqualität leidet. Es ist der Weg von "alles neu bauen" zu "intelligent anpassen".

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

1. Der "Roboter-Karten-Schreiber" (Automatisierte Datensammlung)

2. Die "Nur-Frage-Optimierung" (Index-Preserving Adaptation)

3. Der "Schlankheits-Kurs" (Parameter-Effizientes Fein-Tuning)

Zusammenfassung

1. Problemstellung

2. Methodik

A. Automatisierte Datensatzgenerierung (DevRev-Search Benchmark)

B. Index-Erhaltende Anpassung (Query-Only Adaptation)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

1. Der "Roboter-Karten-Schreiber" (Automatisierte Datensammlung)

2. Die "Nur-Frage-Optimierung" (Index-Preserving Adaptation)

3. Der "Schlankheits-Kurs" (Parameter-Effizientes Fein-Tuning)

Zusammenfassung

1. Problemstellung

2. Methodik

A. Automatisierte Datensatzgenerierung (DevRev-Search Benchmark)

B. Index-Erhaltende Anpassung (Query-Only Adaptation)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical Applications

MARIA: a Multimodal Transformer Model for Incomplete Healthcare Data

Detecting LLM-Generated Peer Reviews

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs