Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE

Diese Studie zeigt, dass die Anwendung von Rotary Positional Embeddings (RoPE) auf nur einen kleinen Teil der Dimensionen (ca. 10 %) zu erheblichen Speichereinsparungen führt, ohne die Konvergenz oder Leistung im Vergleich zur vollständigen RoPE-Anwendung zu beeinträchtigen.

Mohammad Aflah Khan, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie viel "Kompass" braucht ein KI-Modell?

Stell dir vor, du baust ein riesiges Team von Übersetzern (das ist die KI), die einen sehr langen Text lesen sollen. Damit sie verstehen, in welcher Reihenfolge die Wörter stehen (denn "Hund beißt Mann" ist anders als "Mann beißt Hund"), brauchen sie einen inneren Kompass. In der KI-Welt nennt man diesen Kompass RoPE (Rotary Positional Embedding).

Bisher dachten die Architekten dieser KIs: "Je mehr Kompass-Informationen wir jedem einzelnen Teammitglied geben, desto besser." Manche gaben jedem Teammitglied 100 % Kompass-Informationen, andere nur 25 %. Niemand wusste wirklich, ob man nicht auch mit viel weniger auskommen könnte.

Die Entdeckung: Weniger ist oft mehr (und spart enorm viel Platz)

Die Forscher in diesem Papier haben etwas Überraschendes herausgefunden: Man braucht gar nicht den ganzen Kompass für alle.

Stell dir vor, jedes Teammitglied hat einen Rucksack. Der Kompass ist schwer und nimmt viel Platz weg.

  • Der alte Weg: Jeder trägt einen riesigen, schweren Kompass (100 % RoPE). Das ist sicher, aber der Rucksack wird riesig, besonders wenn der Text sehr lang ist (wie ein ganzer Roman).
  • Der neue Weg: Die Forscher haben getestet, ob man den Kompass nur für einen kleinen Teil des Rucksacks nutzen kann.

Das Ergebnis:
Wenn man den Kompass nur für 10 % des Rucksacks nutzt (also nur für einen kleinen Teil der inneren "Gedanken" der KI), passiert etwas Magisches:

  1. Die Leistung ist gleich gut: Die KI lernt genauso schnell und macht genauso wenig Fehler wie mit dem vollen Kompass.
  2. Der Rucksack wird leicht: Da der Kompass nur noch für 10 % der Daten berechnet und gespeichert werden muss, spart man bis zu 10-mal mehr Speicherplatz auf den Grafikkarten.

Das ist wie beim Umzug: Wenn du nur 10 % deiner Möbel in teure, schwere Kisten packst und den Rest locker stapelst, passt alles in ein viel kleineres Auto. Du kommst trotzdem ans Ziel.

Die wichtigsten Erkenntnisse im Alltag

Hier sind die drei großen Lehren, die die Forscher mitgebracht haben:

1. Die "Zehn-Prozent-Regel"
Es reicht völlig aus, wenn nur ein winziger Teil der KI (ca. 10 %) den Kompass trägt. Alles, was darüber hinausgeht, ist wie ein überflüssiger Anker, der nur Gewicht zieht, ohne die Fahrt zu verbessern.

2. Der "No-Go"-Bereich (Vorsicht bei Null!)
Wenn man den Kompass komplett weglässt (0 %), wird es gefährlich. Die KI wird verwirrt, lernt chaotisch und kann sogar "explodieren" (die Fehler werden plötzlich riesig).

  • Die Lösung: Wenn man den Kompass ganz weglassen will (weil es schneller ist), muss man eine Art "Sicherheitsgurt" (QK-Norm) anlegen, damit die KI nicht aus dem Ruder läuft. Aber der einfachste Weg ist, einfach diesen kleinen 10 %-Kompass zu nutzen.

3. Es funktioniert überall
Ob die KI klein oder riesig ist, ob sie kurze oder extrem lange Texte liest (wie ganze Bücher) – die Regel gilt immer: Ein kleiner Teil des Kompasses reicht aus.

Warum ist das wichtig?

Heutzutage wollen wir KIs, die ganze Bücher oder stundenlange Videos auf einmal verstehen können (sehr lange "Kontexte"). Bei diesen langen Texten wird der Speicherplatz für den Kompass zum Flaschenhals.

Dank dieser Studie können Ingenieure jetzt:

  • Geld sparen: Sie brauchen weniger teure Grafikkarten.
  • Schneller sein: Weniger Daten zu speichern bedeutet schnellere Berechnungen.
  • Längere Texte lesen: KIs können jetzt viel längere Dokumente verarbeiten, ohne dass der Speicherplatz platzt.

Fazit in einem Satz

Man muss nicht das ganze Haus mit Sicherheitskameras überwachen, um sicher zu sein; ein paar gut platzierte Kameras (10 % RoPE) reichen völlig aus, um das Haus sicher zu machen und dabei massiv Strom zu sparen.

Die KI bleibt genauso schlau, aber sie wird viel effizienter und kostengünstiger.