MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast ein hochmodernes Team aus zwei Experten, das zusammenarbeiten soll: einen Seher (der Bilder versteht) und einen Denker (der Sprache versteht). Zusammen bilden sie einen Multimodalen Großsprachmodell (MLLM), das sowohl sehen als auch denken kann.

Das Problem beim "Feinabstimmen" (Fine-Tuning) dieses Teams ist wie bei einem Tanzpaar: Wenn einer der beiden zu schnell tanzt und der andere zu langsam ist, stolpern sie über die Füße des anderen. Das Ergebnis ist ein chaotischer Tanz, bei dem niemand gut aussieht.

In der Welt der KI bedeutet das: Der "Seher" (Vision Encoder) und der "Denker" (LLM) lernen oft in unterschiedlichem Tempo. Wenn man sie einfach nur mit den gleichen Einstellungen trainiert, passt das nicht. Bisher haben Forscher versucht, das Problem zu lösen, indem sie den "Takt" (die Lernrate) manuell für jeden einzeln eingestellt haben – ein mühsames Spiel von "Versuch und Irrtum", das viel Zeit kostet.

Hier kommt MARS ins Spiel.

Was ist MARS?

MARS steht für Multimodal Adaptive Rank Search. Klingt kompliziert, ist aber im Grunde ein kluger Tanzlehrer mit einer Kristallkugel.

Statt stundenlang zu raten, wie schnell jeder tanzen soll, nutzt MARS zwei einfache Regeln (die Autoren nennen sie "Skalierungsgesetze"), um vorherzusagen, was passiert, bevor es überhaupt losgeht:

Die "Wann-ist-er-fertig?"-Regel (Scaling Law-C):
Stell dir vor, der Seher und der Denker müssen jeweils einen Berg von Informationen bewältigen. MARS berechnet vorher: "Wenn der Seher mit dieser Geschwindigkeit (Rank) lernt, braucht er genau 100 Schritte. Wenn der Denker mit dieser Geschwindigkeit lernt, braucht er auch 100 Schritte."
- Die Analogie: Es ist wie beim Packen eines Rucksacks. Wenn der Seher einen kleinen Rucksack hat (niedriger Rang), ist er schnell fertig. Der Denker braucht einen großen Rucksack (hoher Rang), um alles zu speichern. MARS passt die Größe der Rucksäcke so an, dass beide zur gleichen Zeit fertig sind. Niemand wartet auf den anderen, niemand ist überlastet.
Die "Wie-gut-wird-es?"-Regel (Scaling Law-P):
Sobald MARS weiß, welche Kombinationen die beiden im gleichen Takt halten, schaut es in seine Kristallkugel, um vorherzusagen, welche dieser Kombinationen am besten tanzen wird.
- Die Analogie: Es gibt viele Paare, die im gleichen Tempo tanzen. Aber welches Paar sieht am schönsten aus? MARS wählt das Paar aus, das nicht nur synchron ist, sondern auch die beste Show bietet.

Warum ist das so genial?

Kein mehr ständiges Raten: Früher musste man hunderte von Trainingsläufen machen, um das richtige Tempo zu finden. Das kostet enorme Rechenleistung und Zeit. MARS berechnet das vorher.
Der "Rank" als Hebel: In der KI gibt es einen Parameter namens "Rank" (Rang). Man kann sich das wie die Größe des Werkzeugkastens vorstellen.
- Ein kleiner Kasten (niedriger Rang) ist schnell zu füllen, kann aber nicht alles speichern.
- Ein großer Kasten (hoher Rang) kann viel speichern, dauert aber länger zu füllen.
- MARS stellt einfach den Werkzeugkasten des Sehers und den des Denkers so ein, dass beide zur gleichen Zeit fertig werden.

Das Ergebnis

Dank MARS tanzen die beiden Experten perfekt synchron. Das Team lernt schneller, macht weniger Fehler und erreicht am Ende viel bessere Ergebnisse als bei den alten Methoden.

Zusammengefasst:
MARS ist wie ein intelligenter Dirigent, der nicht nur die Lautstärke (Lernrate) regelt, sondern die Fähigkeit jedes Instruments (durch den Rang) so anpasst, dass das ganze Orchester zur gleichen Zeit die schwierige Passage meistert. Das spart Zeit, Geld und sorgt für eine viel schönere Musik (bessere KI-Ergebnisse).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Feinabstimmen (Fine-Tuning) von Multimodalen Large Language Models (MLLMs) mittels parameter-effizienter Methoden wie LoRA (Low-Rank Adaptation) ist entscheidend für die Anpassung an spezifische Aufgaben. Ein zentrales, oft übersehenes Problem ist jedoch das Ungleichgewicht der Trainingsdynamiken zwischen den verschiedenen Modulen des MLLM (z. B. Vision Encoder, Projektor und LLM-Backbone).

Ursache: Unterschiedliche Module haben unterschiedliche Lernkapazitäten (bedingt durch Parametergrößen) und unterschiedliche Lernbudgets (bedingt durch die Diskrepanz zwischen dem vortrainierten unimodalen Zustand und der multimodalen Zielaufgabe).
Folge: Wenn Module mit unterschiedlichen Raten konvergieren, führt dies zu negativen Interferenzen.
- Ein zu langsamer Vision Encoder führt zu einem Leistungs-Engpass.
- Ein zu langsamer LLM-Backbone verursacht Trainingsoszillationen und Instabilität.
Aktuelle Lösungen: Herkömmliche Ansätze nutzen oft einheitliche LoRA-Ränge für alle Module und versuchen, das Ungleichgewicht durch manuelles, heuristisches Einstellen unterschiedlicher Lernraten zu korrigieren. Dies ist jedoch ineffizient, arbeitsintensiv und basiert auf Trial-and-Error.

2. Methodik: MARS (Multimodal Adaptive Rank Search)

MARS ist ein automatisierter Ansatz, der optimale Ränge (Rank-Paare) für die verschiedenen Module findet, um die Trainingsdynamiken in Einklang zu bringen und die Leistung zu maximieren. Statt eine vollständige Suche (Naive Search) durchzuführen, die extrem rechenintensiv wäre, nutzt MARS einen zweistufigen, datengesteuerten Suchprozess, der auf dualen Skalierungsgesetzen (Dual Scaling Laws) basiert.

A. Duale Skalierungsgesetze

MARS führt zwei spezifische Skalierungsgesetze ein, um den Suchraum zu verkleinern und die beste Konfiguration vorherzusagen:

Scaling Law-C (Convergence):
- Ziel: Vorhersage der Konvergenzzeit (Anzahl der Iterationen bis zur Konvergenz) für jedes Modul in Abhängigkeit vom LoRA-Rang und der Datengröße.
- Formel: $t_i(r_i, D_f) = k_i \cdot (r_i)^{\gamma_i} \cdot D_f^{\delta_i} + E_i$
- Funktion: Ein höherer Rang führt zu schnellerer Konvergenz (negativer Exponent $\gamma_i$ ), während größere Datensätze mehr Zeit benötigen.
- Anwendung: Dieser Teil wird genutzt, um den Suchraum zu beschneiden (Pruning). MARS sucht nach Rang-Paaren, bei denen die Konvergenzzeiten des Vision Encoders ( $t_{ve}$ ) und des LLM ( $t_{llm}$ ) ausgeglichen sind ( $t_{ve} \approx t_{llm}$ ). Dies eliminiert instabile Konfigurationen.
Scaling Law-P (Performance):
- Ziel: Vorhersage der finalen Aufgabenleistung (z. B. Perplexity oder Accuracy) basierend auf den Rängen und der Datengröße.
- Formel: $\hat{L}(r_{ve}, r_{llm}, D_f) = A \cdot \frac{1}{(r_{ve})^{\alpha_m} \cdot (r_{llm})^{\alpha_l} \cdot D_f^{\beta}} + E$
- Funktion: Dieser Teil dient als Zielfunktion. Aus dem durch Law-C gefilterten Set an stabilen Kandidaten wird das Paar ausgewählt, das die beste vorhergesagte Leistung liefert.

B. Der Suchprozess (Algorithmus)

Kalibrierung: Vor dem eigentlichen Feinabstimmen wird eine leichte Kalibrierungsphase durchgeführt, um die Koeffizienten der beiden Skalierungsgesetze basierend auf kurzen Trainingsläufen mit verschiedenen Rängen zu schätzen.
Beschneiden (Pruning): MARS berechnet für einen gegebenen LLM-Rang den idealen Vision-Encoder-Rang, der die Konvergenzzeiten ausgleicht (basierend auf Law-C). Dies reduziert den Suchraum drastisch.
Auswahl: Aus den verbleibenden, ausgewogenen Kandidaten wird das Paar mit der besten vorhergesagten Performance (basierend auf Law-P) ausgewählt.
Feinabstimmung: Das finale Modell wird nur noch mit diesem einen optimalen Rang-Paar vollständig trainiert.

3. Hauptbeiträge

Identifikation des Problems: Der Nachweis, dass das Ungleichgewicht der Trainingsdynamiken eine Hauptursache für suboptimale MLLM-Leistung ist und dass die Anpassung der LoRA-Ränge (statt nur der Lernraten) ein fundamentalerer Lösungsansatz ist.
Duale Skalierungsgesetze: Die erstmalige Einführung und Validierung von Skalierungsgesetzen für MLLM-Feinabstimmung, die sowohl die Konvergenzzeit als auch die Endleistung modellieren.
Effizienz und Leistung: MARS bietet eine robuste, automatisierte Strategie, die den Suchaufwand um den Faktor 11,5 reduziert, während sie gleichzeitig die Leistung gegenüber Baselines signifikant steigert.

4. Ergebnisse

Die Evaluation wurde auf verschiedenen MLLM-Architekturen (LLaVA-OneVision, Qwen2.5-VL) und Benchmarks (ScienceQA, LLaVA Bench, MME, MMStar, etc.) durchgeführt.

Leistungssteigerung:
- ScienceQA: Bis zu 12,0 % höhere Genauigkeit im Vergleich zu Baselines.
- LLaVA Bench: Bis zu 13,2 % niedrigere Perplexity (bessere Sprachmodellierung).
- MARS übertrifft sowohl manuell abgestimmte Lernraten als auch adaptive Ränge für unimodale Modelle (wie AdaLoRA, GeoLoRA).
Effizienz:
- Im Vergleich zu einer erschöpfenden Suche (Naive Search) reduziert MARS die Gesamtzeit für Suche und Feinabstimmung um durchschnittlich das 11,5-fache.
- Die Kalibrierungsphase ist sehr leichtgewichtig und nutzt Techniken wie „Simultaneous Multi-Rank Tuning", um Overhead zu minimieren.
Robustheit: Die Methode funktioniert sowohl bei Modellen, die „from scratch" (ohne multimodales Vorwissen) trainiert werden, als auch bei bestehenden Generalisten-Modellen.

5. Bedeutung und Ausblick

Die Arbeit von MARS stellt einen Paradigmenwechsel dar, weg von heuristischen, manuellen Anpassungen hin zu einem systematischen, datengesteuerten Ansatz für das Fine-Tuning multimodaler Modelle.

Skalierbarkeit: Der Ansatz skaliert linear mit der Anzahl der Modalitäten, im Gegensatz zur exponentiellen Komplexität einer Gittersuche.
Nachhaltigkeit: Durch die drastische Reduktion der Rechenzeit und des Energieverbrauchs für Hyperparameter-Suchen trägt MARS dazu bei, den CO2-Fußabdruck beim Training großer Modelle zu senken.
Zukunft: Die Autoren sehen Potenzial darin, die feingranularen Beziehungen zwischen Domänensensitivität, Lernkapazitätsunterschieden und Trainingsdynamiken weiter zu erforschen, um die Effizienz von MLLMs noch weiter zu optimieren.

Zusammenfassend bietet MARS einen effizienten Weg, die inhärenten Spannungen beim multimodalen Lernen zu harmonisieren, indem es die Kapazität der Anpassung (durch Ränge) präzise steuert, anstatt nur die Geschwindigkeit (durch Lernraten) zu modulieren.

MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search

Was ist MARS?

Warum ist das so genial?

Das Ergebnis

1. Problemstellung

2. Methodik: MARS (Multimodal Adaptive Rank Search)

A. Duale Skalierungsgesetze

B. Der Suchprozess (Algorithmus)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank