Ursprüngliche Autoren: Tyler Ingebrand, Ruihan Zhao, Kushagra Gupta, David Fridovich-Keil, Sandeep P. Chinchali, Ufuk Topcu

Veröffentlicht 2026-05-08

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Tyler Ingebrand, Ruihan Zhao, Kushagra Gupta, David Fridovich-Keil, Sandeep P. Chinchali, Ufuk Topcu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen Meisterkoch, der unglaublich gut darin ist, eine bestimmte Reihe von Gerichten zuzubereiten, wie etwa ein „Trainingsmenü" mit 10 verschiedenen Pasta-Arten. Sie wissen genau, wie dieser Koch Spaghetti, Lasagne und Fettuccine zubereitet, weil Sie ihnen beim Kochen dieser Gerichte schon oft zugesehen haben.

Stellen Sie sich nun vor, Sie betreten die Küche und sagen: „Ich möchte ein neues Gericht: eine Pasta nach einem geheimen Familienrezept, das ich Ihnen noch nie gezeigt habe, aber hier sind drei Fotos des Endergebnisses."

Die meisten heutigen KI-Modelle sind wie Köche, die jedes Mal, wenn Sie ihnen ein neues Foto zeigen, von Grund auf neu trainiert werden müssen. Sie müssen das neue Gericht probieren, üben und ihren gesamten Kochstil neu erlernen, nur um dieses eine spezifische Gericht zuzubereiten. Das dauert lange und erfordert viel Aufwand.

Das Problem:
Die Arbeit stellt eine neue Methode namens FP-FM (Function Projection for Flow Matching) vor. Sie löst das Problem, einer KI beizubringen, neue, unbekannte Verteilungen (wie diese geheime Familienpasta) nur mit wenigen Beispielsamples zu generieren, ohne das gesamte Modell neu trainieren zu müssen.

Die Lösung: Das „Universal-Rezeptbuch"
Anstatt den Koch neu zu trainieren, lehrt FP-FM die KI, während des initialen Trainings ein „Universal-Rezeptbuch" (eine Menge von Basisfunktionen) zu erstellen.

Die Bibliothek der Bewegungen: Stellen Sie sich vor, der Koch lernt eine Reihe grundlegender Kochbewegungen: „im Uhrzeigersinn rühren", „Salz hinzufügen", „Pfanne wenden", „langsam köcheln lassen". Dies sind die Basisfunktionen.
Die Geheime Sauce (Koeffizienten): Wenn der Koch ein bestimmtes Gericht zubereiten möchte, erfindet er keine neuen Bewegungen. Stattdessen entscheidet er nur, wie viel von jeder Bewegung er verwendet.
- Für Spaghetti: „Im Uhrzeigersinn rühren (100 %), Salz hinzufügen (50 %), Pfanne wenden (0 %)."
- Für Lasagne: „Im Uhrzeigersinn rühren (20 %), Salz hinzufügen (80 %), Pfanne wenden (100 %)."

Wie FP-FM funktioniert:
Wenn Sie der KI einige Beispiele einer neuen Zielverteilung (die geheime Pasta) geben, lehrt FP-FM dem Koch keine neuen Bewegungen. Stattdessen berechnet es schnell die perfekte Mischung bestehender Bewegungen (die Koeffizienten), um dieses neue Gericht nachzubilden.

Die Arbeit schlägt drei Versionen dieses „Rezeptbuchs" vor, die einen Kompromiss zwischen der Intelligenz des Kochs und seiner Kochgeschwindigkeit bieten:

Statisches FP-FM (Der „Einheits-Koch"):
Dieser Koch berechnet die Rezeptmischung einmal am Anfang. Es ist sehr schnell zu kochen, aber wenn das neue Gericht sehr komplex oder seltsam ist, könnte dieser Koch Schwierigkeiten haben, die Details richtig hinzubekommen, da er die Rezeptur während des Prozesses nicht anpassen kann. Es ist wie das Stellen eines Weckers und Weggehen; es funktioniert bei einfachen Dingen, versagt aber bei komplexen.
Temporales FP-FM (Der „Zeitbewusste" Koch):
Dieser Koch erkennt, dass sich das Kochen im Laufe der Zeit verändert. Die Rezeptur für „Salz hinzufügen" könnte zu Beginn des Kochprozesses anders sein als am Ende. Dieser Koch berechnet die Rezeptmischung in jedem Schritt des Kochprozesses (zu jedem Zeitschritt) neu. Dies lässt das Gericht viel besser schmecken und bewältigt komplexere Geschmacksrichtungen, erfordert aber etwas mehr geistige Energie, um den Zeitplan im Auge zu behalten.
Dynamisches FP-FM (Der „Meister-Probierer"-Koch):
Dies ist die fortschrittlichste Version. Dieser Koch betrachtet den Topf in jedem einzelnen Moment und passt die Rezeptur basierend darauf an, wie das Essen genau jetzt aussieht. Wenn die Sauce zu dick ist, fügt er genau dann Wasser hinzu. Wenn sie zu dünn ist, lässt er sie genau dann köcheln.
- Das Ergebnis: Dieser Koch produziert die genauesten, hochfidelsten Gerichte, selbst für die seltsamsten, unbekannten Rezepte.
- Die Kosten: Es erfordert die meiste geistige Energie (Rechenleistung), da er die Mischung ständig neu bewertet.

Die Ergebnisse:
Die Autoren haben diese Köche an verschiedenen „Menüs" getestet:

2D-Bögen & MNIST (Einfache bis mittlere Gerichte): Der Dynamische Koch (Dynamic FP-FM) erzeugte die genauesten Bilder neuer Zahlen und Formen und erfasste Details, die die anderen Köche verpasst hatten.
ImageNet (High-End-Küche): Selbst bei komplexen, hochauflösenden Bildern erzeugte der Dynamische Koch die besten Ergebnisse und erstellte Bilder, die den Zielbeispielen am ähnlichsten sahen, ohne zu verwischen oder falsche Details zu erfinden.

Wichtige Erkenntnisse:

Kein Neulernen erforderlich: Im Gegensatz zu Standardmethoden, die die neuen Daten stundenlang „studieren" müssen, passt sich FP-FM sofort an, indem es nur eine schnelle mathematische Berechnung (eine „Least-Squares-Projektion") durchführt, um die richtige Mischung der Bewegungen zu finden.
Besser als Raten: Es übertrifft Methoden, die versuchen, das neue Gericht basierend auf Textbeschreibungen oder einfachen Labels zu erraten.
Der Kompromiss: Sie können Ihren Koch wählen. Wenn Sie Geschwindigkeit benötigen, wählen Sie die statische Version. Wenn Sie die höchste Qualität benötigen und etwas zusätzliche Rechenleistung nicht scheuen, wählen Sie die dynamische Version.

Kurz gesagt: FP-FM ist wie das Geben eines Sets von Lego-Steinen (der Basisfunktionen) und ein paar Fotos eines neuen Schlosses an eine KI. Anstatt eine ganze neue Fabrik zu bauen, um neue Steine herzustellen, findet die KI einfach genau heraus, wie man die vorhandenen Steine zusammensteckt, um das neue Schloss perfekt zu bauen.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Funktionsprojektion für Flow Matching (FP-FM)

Problemstellung

Generatives Modellieren, insbesondere durch Diffusion und Flow Matching, hat sich bei der Erstellung hochfiderer synthetischer Daten als erfolgreich erwiesen. Dennoch bleibt eine erhebliche Herausforderung in der Many-Shot-Adaptation bestehen: die Fähigkeit, ein generatives Modell effizient an eine neue, unbekannte Zielverteilung anzupassen, indem nur eine Menge von Stichprobenpunkten aus dieser Verteilung verwendet wird, ohne dass zusätzliches Training oder Fine-Tuning erforderlich ist.

Traditionelle bedingte Generierung stützt sich häufig auf explizite Bedingungsvariablen (z. B. natürliche Sprachprompts oder Klassenlabels). Obwohl diese für bekannte Klassen effektiv sind, reichen sie nicht aus, wenn die Zielverteilung durch spezifische visuelle Beispiele definiert ist (z. B. das Erzeugen von Bildern einer bestimmten Person) oder durch komplexe Mischungen, die sich nicht leicht durch ein festes Vokabular beschreiben lassen. Darüber hinaus sind Standard-Fine-Tuning-Ansätze rechnerisch teuer, da sie für jede neue Verteilung Gradientenschritte erfordern, was Anwendungen mit niedriger Latenz behindert.

Die Autoren schlagen ein Setting vor, in dem das Modell während des Trainings eine Familie von Verteilungen $\{p^\iota_X\}_{\iota \in \mathcal{I}}$ lernen muss und, nachdem es Stichproben aus einer neuen Verteilung $p^\iota_X$ erhalten hat (wobei $\iota$ während des Trainings nicht gesehen wurde), effizient Stichproben daraus generieren muss.

Methodik: Funktionsprojektion für Flow Matching (FP-FM)

Der Kerngedanke von FP-FM besteht darin, das Adaptionsproblem im Rahmen des Flow Matching unter Verwendung einer Funktions-Encoder-Perspektive neu zu formulieren. Anstatt ein einzelnes Geschwindigkeitsfeld zu lernen oder auf eine diskrete Variable zu konditionieren, lernt FP-FM eine Menge von Basisfunktionen, die den Raum der durch die Trainingsverteilungen induzierten Geschwindigkeitsfelder aufspannen.

Theoretische Grundlage

Flow Matching: Das Modell lernt ein Geschwindigkeitsfeld $v(x, t) = \mathbb{E}[X_1 - X_0 | X_t = x]$ , das eine Rauschverteilung $X_0 \sim \mathcal{N}(0, I)$ zu einer Zielverteilung $X_1 \sim p_X$ transportiert.
Funktionsraum: Die Menge der Geschwindigkeitsfelder $\mathcal{V}$ wird als Hilbertraum behandelt. Die Verlustfunktion beim Flow Matching (mittlerer quadratischer Fehler) entspricht dem quadrierten Norm in diesem Raum.
Basislernen: FP-FM lernt $k$ Basisfunktionen $\{g_i\}_{i=1}^k$ (parametrisiert als neuronale Netze), um die Geschwindigkeitsfelder der Trainingsverteilungen aufzuspannen.
Adaption durch Projektion: Um sich an eine neue Zielverteilung anzupassen, berechnet der Algorithmus Koeffizienten $c_\iota$ mittels einer Least-Squares-Projektion des Zielgeschwindigkeitsfeldes auf die gelernte Basis. Die für diese Projektion erforderlichen Skalarprodukte werden unter Verwendung der bereitgestellten Stichproben aus der Zielverteilung approximiert, wodurch die Notwendigkeit entfällt, das wahre Geschwindigkeitsfeld analytisch zu kennen.

Drei Varianten

Die Arbeit stellt drei Varianten von FP-FM vor, die einen Kompromiss zwischen Ausdrucksstärke und Rechenkosten bieten:

Statisches FP-FM:
- Mechanismus: Die Koeffizienten $c_\iota$ sind für eine gegebene Verteilung konstant. Das Geschwindigkeitsfeld wird angenähert als $v_\iota(x, t) \approx \sum c_{\iota,i} g_i(x, t)$ .
- Einschränkung: Geht von einer linearen Beziehung zwischen der Verteilung und ihrem Geschwindigkeitsfeld aus. Da die Kontinuitätsgleichung nichtlinear ist, hat diese Variante Schwierigkeiten mit unbekannten Verteilungen (Mischungen oder neuen Trägermengen), die außerhalb des linearen Spannraums der Trainingsgeschwindigkeitsfelder liegen.
Temporales FP-FM:
- Mechanismus: Die Koeffizienten werden zeitabhängig, $c_\iota(t)$ . Die Approximation lautet $v_\iota(x, t) \approx \sum c_{\iota,i}(t) g_i(x, t)$ .
- Verbesserung: Indem die Koeffizienten über die Zeit variieren dürfen, kann das Modell die nichtlinearen Dynamiken der Kontinuitätsgleichung besser erfassen, was die Generalisierung auf unbekannte Verteilungen erheblich verbessert.
Dynamisches FP-FM:
- Mechanismus: Die Koeffizienten sind zustands- und zeitabhängig, $c_\iota(x, t)$ . Die Approximation lautet $v_\iota(x, t) \approx \sum c_{\iota,i}(x, t) g_i(x, t)$ .
- Implementierung: Dies erfordert die Lösung eines lokalisierten Least-Squares-Problems für jeden Zustand $x$ und jeden Zeitpunkt $t$ . Die Autoren leiten einen Satz (Satz 1) ab, um die bedingte Erwartung $\mathbb{E}[X_1 - X_0 | X_t = x]$ effizient unter Verwendung von Importance Sampling zu berechnen, wodurch der direkte Zugriff auf das wahre Geschwindigkeitsfeld umgangen wird.
- Leistung: Bietet die höchste Ausdrucksstärke und ist in der Lage, komplexe, unbekannte Trägermengen und Mischungen mit hoher Fidelity zu modellieren.

Hauptbeiträge

Algorithmische Innovation: Vorstellung von FP-FM, einer Methode, die die Generierung direkt auf Stichproben der Zielverteilung konditioniert und nicht auf explizite Bedingungsvariablen, wodurch eine Zero-Shot-Adaption an unbekannte Verteilungen ohne Fine-Tuning ermöglicht wird.
Theoretische Integration: Erfolgreiche Integration von Funktions-Encodern mit Flow Matching unter Verwendung von verteilungsgewichteten Skalarprodukten, um Geschwindigkeitsfelder auf eine gelernte Basis zu projizieren.
Spektrum Ausdrucksstärke-Rechenleistung: Einführung der Varianten Statistisch, Temporal und Dynamisch, die Praktikern einen justierbaren Kompromiss zwischen Modell-Ausdrucksstärke und Inferenz-Latenz bieten.
Effiziente Schätzung: Herleitung eines auf Monte-Carlo basierenden Schätzers (Satz 1) für die im dynamischen Variant erforderlichen bedingten Erwartungen, wodurch die Berechnung zustandsabhängiger Koeffizienten machbar wird.

Experimentelle Ergebnisse

Die Autoren bewerten FP-FM an drei Datensätzen: 2D-Bögen (visualisierung in niedriger Dimension), MNIST (strukturierte Bilder) und ImageNet (hochskalig, hochdimensional). Sie vergleichen dies mit unbedingtem Flow Matching, bedingtem Flow Matching, klassifikatorgeführter, verteilungsgesteuerter Generierung sowie Standard-Fine-Tuning.

Generalisierung: FP-FM-Varianten übertreffen Baselines bei Unbekannten Verteilungen (UD) (Mischungen von Trainingsklassen) und Unbekannten Trägermengen (US) (ganz neue Klassen oder Formen) konsistent.
- Bei 2D-Bögen erreicht dynamisches FP-FM die höchste Präzision (0,976 bei UD, 0,734 bei US) und übertrifft Fine-Tuning und bedingte Baselines, die bei Mischungen oder neuen Trägermengen keine Generalisierung zeigen, deutlich.
- Bei MNIST erreicht dynamisches FP-FM die beste Präzision, den besten Recall und den besten FID über alle Aufteilungen hinweg, einschließlich der unbekannten Ziffer '9'.
- Bei ImageNet erzeugt dynamisches FP-FM die qualitativ hochwertigsten Bilder für unbekannte Klassen, während statische und temporale Varianten aufgrund von Speicherbeschränkungen und geringerer Ausdrucksstärke Einschränkungen aufweisen.
Effizienz:
- FP-FM ist deutlich schneller als Fine-Tuning (welches für jede neue Verteilung Gradientenabstieg erfordert).
- Dynamisches FP-FM ist rechnerisch teurer als statische/temporale Varianten und bedingte Modelle aufgrund der Koeffizientenberechnung pro Stichprobe, bleibt aber schneller als vollständiges Fine-Tuning.
Metriken: Die Ergebnisse verdeutlichen einen klaren Trend: Mit zunehmender Ausdrucksstärke der Koeffizientenberechnung (Statisch $\to$ Temporal $\to$ Dynamisch) verbessert sich die Fähigkeit, unbekannte Verteilungen zu erfassen, insbesondere bei der Präzision (Vermeidung einer Überapproximation des Datenmanifolds).

Bedeutung und Behauptungen

Die Arbeit behauptet, dass FP-FM eine praktische und effektive Alternative zu bestehenden Ansätzen für die bedingte Generierung darstellt. Ihre primäre Bedeutung liegt in:

Eliminierung der Notwendigkeit von Bedingungsvariablen: Es ermöglicht Modellen, sich an Verteilungen anzupassen, die ausschließlich durch Stichproben definiert sind, was für Aufgaben wie die subjektgetriebene Generierung intuitiver ist.
Rechnerische Effizienz: Es ermöglicht eine schnelle Anpassung an neue Verteilungen ohne die teuren Gradientenschritte, die durch Fine-Tuning erforderlich sind.
Umgang mit unbekannten Trägermengen: Im Gegensatz zu Standard-Bedingungsmodellen, die auf festen Vokabularen oder Klassenlabels basieren, kann FP-FM auf völlig neue Trägermengen (z. B. eine Spiralverteilung oder eine neue Ziffernkategorie) generalisieren, indem es die Struktur des Funktionsraums nutzt.

Die Autoren kommen zu dem Schluss, dass die explizite Konditionierung auf Stichproben unter Verwendung einer Funktionsraum-Perspektive ein gangbarer erster Schritt zur Anpassung generativer Modelle an unbekannte Verteilungen ist und ein Spektrum von Lösungen bietet, die Fidelity und Rechenkosten ausbalancieren. Sie erkennen Einschränkungen an und stellen fest, dass die Leistung von der Anzahl und Qualität der bereitgestellten Stichproben abhängt und die Methode etwas teurer ist als einfache bedingte Modelle.

A Flow Matching Algorithm for Many-Shot Adaptation to Unseen Distributions