Thompson Sampling via Fine-Tuning of LLMs

Die Arbeit stellt ToSFiT vor, einen skalierbaren Ansatz zur Bayesschen Optimierung in großen diskreten Räumen, der durch Feinabstimmung von Large Language Models die Notwendigkeit der Maximierung von Akquisitionsfunktionen umgeht und dabei sowohl hohe Sample-Effizienz als auch Recheneffizienz in verschiedenen Anwendungsbereichen erreicht.

Nicolas Menet, Aleksandar Terzić, Michael Hersche, Andreas Krause, Abbas Rahimi

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die Suche im Dunkeln

Stellen Sie sich vor, Sie sind ein Schatzsucher in einem riesigen, undurchdringlichen Dschungel (dem „Suchraum"). Ihr Ziel ist es, den einen perfekten Ort zu finden, an dem der größte Goldschatz (die beste Lösung) liegt.

Das Problem: Der Dschungel ist so riesig, dass Sie ihn nicht Schritt für Schritt abgehen können. Es gibt keine Landkarte mit Straßen (keine „Gradienten"), die Ihnen sagen, wohin Sie laufen müssen. Und jedes Mal, wenn Sie einen neuen Ort untersuchen, kostet das viel Zeit und Geld (z. B. ein teures Laborexperiment oder das Testen eines neuen Medikamentenmoleküls).

Frühere Methoden (wie „Bayesian Optimization") waren wie ein sehr vorsichtiger Navigator. Er sagte: „Lass uns hierhin gehen, aber wir müssen erst eine komplizierte Rechnung machen, um sicherzustellen, dass es der beste Ort ist." In einem riesigen Dschungel ist diese Rechnung aber unmöglich durchzuführen – sie würde ewig dauern.

Die Lösung: TOSFIT – Der kluge Navigator mit Intuition

Die Autoren dieses Papiers haben eine neue Methode namens TOSFIT (Thompson Sampling via Fine-Tuning) entwickelt. Sie funktioniert wie folgt:

Statt die komplizierte Rechnung zu machen, nutzen sie einen KI-Sprachmodell-Assistenten (ein Large Language Model, LLM), der bereits viel über die Welt weiß (durch sein Training).

Die Metapher: Der erfahrene Koch

Stellen Sie sich den KI-Assistenten als einen erfahrenen Koch vor, der schon tausende Rezepte gesehen hat.

  1. Der Start (Vorwissen): Wenn Sie ihn bitten, ein neues Rezept zu erfinden, nutzt er sofort sein Wissen aus der Vergangenheit. Er weiß, dass Salz und Pfeffer gut zusammenpassen. Er muss nicht bei Null anfangen.
  2. Der Test (Belohnung): Sie lassen ihn ein Gericht kochen und probieren es. Es schmeckt gut, aber nicht perfekt.
  3. Die Anpassung (Fine-Tuning): Anstatt den Koch zu feuern oder ihm eine neue, komplizierte Anleitung zu geben, feinjustieren Sie ihn. Sie sagen ihm: „Nächstes Mal mach das Salz etwas weniger, aber mehr Knoblauch." Der Koch passt sich langsam an Ihre spezifischen Vorlieben an.
  4. Der Trick: Der Koch generiert nicht nur ein Rezept, sondern er wird so trainiert, dass er genau die Rezepte vorschlägt, die mit hoher Wahrscheinlichkeit am besten schmecken werden. Er lernt quasi, „wo der Goldschatz liegt", indem er seine eigenen Ideen immer besser auf die Rückmeldungen abstimmt.

Warum ist das so clever?

In der Wissenschaft gibt es zwei Hauptstrategien, um den besten Ort zu finden:

  1. Ausprobieren (Exploration): Gehen Sie an unbekannte Orte, um neue Dinge zu entdecken.
  2. Nutzen (Exploitation): Gehen Sie dorthin, wo Sie schon wissen, dass es gut ist.

Frühere KI-Methoden waren oft zu starr oder zu chaotisch. TOSFIT nutzt einen cleveren mathematischen Trick (basierend auf dem „Thompson Sampling"), der dem Koch sagt: „Sei neugierig, aber basiere deine Neugier auf dem, was du schon weißt."

  • Der Vorteil: Der Koch (die KI) muss nicht erst eine riesige Landkarte zeichnen. Er nutzt seine Intuition, um direkt gute Kandidaten zu generieren.
  • Die Anpassung: Wenn sich herausstellt, dass ein Kandidat (z. B. ein neues Protein oder ein Code-Schnipsel) gut funktioniert, wird der Koch sofort ein bisschen „umprogrammiert", um noch mehr davon zu produzieren.

Wo wird das angewendet?

Die Autoren haben TOSFIT an drei sehr unterschiedlichen Aufgaben getestet:

  1. FAQ-Verbesserung: Der KI wurde beigebracht, Antworten auf häufig gestellte Fragen so zu formulieren, dass sie für Menschen am verständlichsten sind.
  2. Protein-Suche: Der Dschungel hier ist gigantisch. Es gibt mehr mögliche Aminosäure-Kombinationen für Proteine als Atome im Universum. TOSFIT half, stabile Proteine zu finden, die als Medikamente dienen könnten.
  3. Quantencomputer-Design: Der KI wurde beigebracht, komplexe Schaltungen für Quantencomputer zu entwerfen, die Energie sparen.

Das Ergebnis

TOSFIT ist wie ein Super-Navigator.

  • Es ist schneller als alle anderen Methoden, weil es keine unnötigen Rechnungen anstellt.
  • Es ist sparsamer, weil es mit weniger Versuchen (weniger teuren Experimenten) zum Ziel kommt.
  • Es ist intelligent, weil es das Vorwissen der KI nutzt und es Schritt für Schritt perfektioniert.

Zusammenfassend: TOSFIT nimmt einen klugen KI-Assistenten, gibt ihm eine Aufgabe, und lässt ihn durch ständiges Üben und Anpassen lernen, wie man in einem riesigen, unbekannten Dschungel den besten Schatz findet – ohne dabei die Zeit für eine vollständige Landkarte zu verschwenden.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →