Inference-time Alignment in Continuous Space

Die Arbeit stellt SEA (Simple Energy Adaptation) vor, einen effizienten Algorithmus zur Ausrichtung von Sprachmodellen zur Laufzeit, der durch gradientenbasiertes Sampling im kontinuierlichen latenten Raum die Grenzen diskreter Suchverfahren überwindet und dabei signifikante Verbesserungen auf Benchmarks wie AdvBench und MATH erzielt.

Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng

Veröffentlicht 2026-03-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Suche im Dunkeln"-Ansatz

Stell dir vor, du hast einen sehr talentierten, aber manchmal etwas unzuverlässigen Koch (das KI-Modell). Du möchtest, dass er ein perfektes Gericht (eine sichere und hilfreiche Antwort) kocht.

Bisherige Methoden (wie Best-of-N) funktionieren so:
Du lässt den Koch 64 verschiedene Versionen desselben Gerichts kochen. Dann schmeckt ein Kritiker (der Belohnungs-Modell) jede Version ab und wählt die eine aus, die am besten schmeckt.

Das Problem:

  1. Wenn der Koch wirklich schlecht ist, sind vielleicht alle 64 Versionen verbrannt oder enthalten giftige Pilze. Dann hilft auch das Suchen nichts.
  2. Es ist extrem ineffizient, 64 Gerichte zu kochen, nur um eines zu retten.
  3. Es ist wie eine Suche im Dunkeln: Du wirfst viele Steine in einen See und hoffst, einer landet in der richtigen Bucht.

Die neue Lösung: SEA (Simple Energy Adaptation)

Die Autoren dieses Papiers schlagen eine völlig andere Methode vor, die sie SEA nennen. Statt viele Gerichte zu kochen und dann das Beste auszuwählen, nehmen sie ein Gericht und verbessern es Schritt für Schritt direkt am Herd.

Hier ist die Analogie:

1. Vom „Würfeln" zum „Richten" (Diskret vs. Kontinuierlich)

  • Alte Methode (Diskret): Du hast eine Liste von fertigen Gerichten. Du kannst sie nicht ändern, du kannst sie nur auswählen. Das ist wie ein Puzzle, bei dem du nur die fertigen Teile hast.
  • SEA-Methode (Kontinuierlich): Stell dir vor, das Gericht ist noch eine flüssige Suppe. Du kannst den Geschmack kontinuierlich anpassen. Du gibst einen Hauch mehr Salz hinzu, dann ein wenig weniger Pfeffer. Du veränderst die Suppe langsam, bis sie perfekt ist. Du musst nicht 64 neue Suppen kochen; du verfeinerst eine einzige.

2. Der Bergsteiger-Analogie (Der Gradient)

Stell dir vor, die Qualität der Antwort ist ein Berg.

  • Der Gipfel ist die perfekte, sichere Antwort.
  • Der Koch steht irgendwo am Hang (seine erste Antwort).
  • Alte Methode: Der Koch wirft 64 Bälle in verschiedene Richtungen. Wenn einer zufällig näher am Gipfel landet, nimmt man ihn.
  • SEA-Methode: Der Koch schaut sich das Gelände an (er nutzt den Gradienten). Er sieht, wo der Berg steiler nach oben führt. Er macht einen kleinen Schritt in diese Richtung, schaut wieder, macht einen weiteren Schritt. Er wandert gezielt den Berg hinauf, bis er den Gipfel erreicht.

3. Das „Energie"-Konzept

In der Physik haben Objekte eine „Energie". Dinge wollen immer den Zustand mit der niedrigsten Energie (Stabilität).

  • Die Autoren definieren eine „Energie-Funktion" für KI-Antworten.
  • Eine schlechte, gefährliche Antwort hat hohe Energie (sie ist instabil, wie ein Ball auf einem steilen Hügel).
  • Eine gute, sichere Antwort hat niedrige Energie (sie liegt im Tal).
  • SEA ist wie ein Wasserfall: Das Wasser (die Antwort) fließt automatisch den Berg hinab, um das tiefste Tal (die beste Antwort) zu finden. Es nutzt die Schwerkraft (die Mathematik hinter dem Belohnungs-Modell), um sich selbst zu korrigieren.

Warum ist das so genial?

  1. Tiefe Sicherheit (Deep Alignment):
    Bei alten Methoden passiert oft, dass der Koch am Anfang sagt: „Ja, hier ist der Plan für eine Bombe", und dann erst im letzten Satz sagt: „Aber das ist verboten." Das ist wie eine Falle.
    SEA kann den ganzen Satz gleichzeitig anpassen. Es korrigiert nicht nur das Ende, sondern den ganzen Fluss der Antwort. Es verhindert, dass die gefährliche Idee überhaupt erst in den ersten Wörtern festgefahren wird.

  2. Effizienz:
    Statt 64 Gerichte zu kochen (was viel Zeit und Strom kostet), kocht SEA nur eines, aber verfeinert es intelligent. Das spart Rechenleistung, auch wenn es etwas länger dauert als das reine „Auswählen".

  3. Robustheit:
    Selbst wenn der Koch (das Basis-Modell) nicht sehr gut ist, kann SEA ihn trotzdem zu einer guten Antwort führen, weil es ihn Schritt für Schritt den Berg hinaufführt. Bei der alten Methode wäre der Koch bei schlechten Fähigkeiten hoffnungslos verloren.

Zusammenfassung in einem Satz

Statt blindlings 100 Antworten zu generieren und die beste herauszusuchen, nimmt SEA eine Antwort, schaut sich an, wo sie „falsch" ist, und verbessert sie wie einen Bildhauer, der einen Marmorblock langsam in eine perfekte Statue verwandelt, indem er Stück für Stück das Falsche wegnimmt.

Das Ergebnis: Sicherere, klügere und oft bessere Antworten von KI-Modellen, ohne dass man das Modell neu trainieren muss.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →