Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Modelle die Geometrie wirklich „sehen"? (Eine einfache Erklärung)

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas verwirrten Bibliothekar. Dieser Bibliothekar hat Millionen von Büchern (Bilder) gelesen und kann die Welt darin beschreiben. Aber wenn Sie ihn fragen: „Wie genau ist der Winkel dieses Fingers?", zuckt er mit den Schultern und sagt: „Naja, der Finger ist gebeugt, vielleicht so um die 20 Grad?" Er liegt oft falsch.

Die neue Studie von Yakov Pyotr Shkolnikov stellt eine faszinierende Frage: Liegt das daran, dass der Bibliothekar die Geometrie gar nicht versteht? Oder liegt es nur daran, dass er sie nicht aussprechen kann?

Die Antwort ist überraschend: Der Bibliothekar versteht die Geometrie perfekt, er kann sie nur nicht in Worte fassen.

Hier ist die Geschichte, wie die Forscher das herausgefunden haben, mit ein paar einfachen Vergleichen:

1. Der stille Sensor vs. der laute Sprecher

Stellen Sie sich das KI-Modell wie ein hochmodernes Auto vor.

Der Motor (Die Bildverarbeitung): Das ist der Teil, der die Bilder sieht. Er ist extrem präzise. Er kann die Position jedes Gelenks an einer Hand millimetergenau berechnen.
Die Sprachausgabe (Der Text-Teil): Das ist das Mikrofon, das versucht, das Ergebnis dem Fahrer zu erklären.

Die Forscher haben festgestellt: Wenn sie direkt auf den Motor zugreifen (die „eingefrorenen" Daten), kann er die Winkel der Finger mit einer Fehlerquote von nur 6,1 Grad berechnen. Das ist fast perfekt!
Wenn sie aber den Motor zwingen, das Ergebnis über das Mikrofon (Text) zu sagen, steigt der Fehler auf 20,0 Grad.

Die Erkenntnis: Es ist nicht so, dass das Auto blind ist. Es ist so, als würde ein Genie-Mathematiker versuchen, eine komplexe Formel durch ein verstopftes Megaphon zu schreien. Die Information ist da, aber der Weg zum Mund (der Text-Teil) ist ein Flaschenhals.

2. Der „LoRA"-Schlüssel: Den Kanal öffnen

Die Forscher haben einen kleinen Trick angewendet. Sie haben dem Sprachteil des Modells einen winzigen, flexiblen Adapter (genannt LoRA) angelegt. Man könnte sich das wie einen Dolmetscher vorstellen, der direkt am Ohr des Mathematikers sitzt.

Ohne Dolmetscher: Der Mathematiker schreit durch das Megaphon (20 Grad Fehler).
Mit Dolmetscher: Der Dolmetscher nimmt die präzisen Daten des Mathematikers und formuliert sie so, dass das Megaphon sie klar überträgt.

Das Ergebnis? Der Fehler sank sofort von 20 auf 6,5 Grad. Das beweist: Die KI hatte die Geometrie schon immer im Kopf. Sie musste nur lernen, wie man sie „herausgibt".

3. Der Baukasten-Effekt: Es kommt auf den Plan an, nicht auf den Baustoff

Die Forscher haben 14 verschiedene KI-Modelle getestet. Einige waren wie riesige Wolkenkratzer (sehr komplex), andere wie solide Einfamilienhäuser. Manche wurden mit einem bestimmten Lernplan (Selbstüberwachung) trainiert, andere mit einem anderen (Kontrastives Lernen).

Das Überraschende: Alle Modelle, die nach einem bestimmten Lernplan trainiert wurden, landeten am Ende bei exakt derselben Genauigkeit.

Stellen Sie sich vor, Sie bauen fünf verschiedene Brücken aus Holz, Stahl, Stein, Glas und Beton. Wenn Sie alle nach demselben physikalischen Gesetz bauen, tragen sie alle gleich viel Gewicht. Es ist egal, aus welchem Material die Brücke ist (die Architektur), entscheidend ist, wie sie gebaut wurde (das Trainingsziel).

Die Forscher nennen dies „funktionale Konvergenz": Verschiedene Wege führen zum selben Ziel. Die KI-Modelle sehen die Welt zwar unterschiedlich (sie haben unterschiedliche „Gedankenmuster"), aber wenn es darum geht, Winkel zu messen, kommen sie alle am selben Punkt an.

4. Wo sitzt das Wissen? (Die Schichten)

Die Forscher haben auch geschaut, wo in der KI das geometrische Wissen sitzt.

Bei reinen Bild-Modellen (wie einem Fotoapparat) wird das Wissen mit jeder Schicht tiefer im Gehirn präziser. Es ist wie ein Bild, das immer schärfer wird, je mehr man zoomt.
Bei Modellen, die auch Texte schreiben (wie ein Chatbot), passiert etwas Seltsames: Je tiefer man in die Text-Schichten geht, desto mehr geht die geometrische Präzision verloren. Der Text-Teil „vergisst" die feinen Details zugunsten der Sprache.

Warum ist das wichtig?

Stellen Sie sich vor, Sie haben bereits eine riesige KI im Einsatz, die Bilder analysiert. Früher dachte man, man müsse für jede neue Aufgabe (z. B. „Wie weit ist das Auto entfernt?" oder „Wie ist der Kopf geneigt?") ein komplett neues, riesiges Modell trainieren.

Diese Studie zeigt: Nein!
Sie können die bestehende KI einfach lassen (sie ist der Sensor) und nur einen winzigen, billigen „Zusatz" (den Linearen Proben-Adapter) hinzufügen.

Kosten: Statt Millionen von Parametern brauchen Sie nur etwa 6.000 neue Parameter pro Aufgabe.
Daten: Statt 100.000 Bildern reichen oft 6.000.

Das Fazit in einem Satz:
Unsere KI-Modelle sind eigentlich geniale Geometer, die nur schlecht reden können. Wenn wir ihnen einen kleinen Dolmetscher (LoRA) geben oder direkt auf ihre Daten zugreifen, können wir mit minimalem Aufwand präzise 3D-Messungen aus Bildern machen, ohne die riesigen Modelle neu erfinden zu müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) werden zunehmend für quantitative visuelle Aufgaben eingesetzt, doch es fehlt ein systematisches Verständnis dafür, wie gut ihre internen Repräsentationen kontinuierliche physikalische Messgrößen (wie Gelenkwinkel oder Pose) kodieren.

Das Phänomen: Wenn Anwender VLMs auffordern, quantitative Schätzungen zu liefern, erhalten sie oft ungenaue Antworten mit Fehlern von 20–39°.
Die offene Frage: Ist dies eine fundamentale Einschränkung der visuellen Repräsentation des Modells oder lediglich ein „Bottleneck" der Textausgabepfad (Text Decoder)?
Hypothese: Die visuelle Kodierung der Geometrie ist vorhanden, wird aber vom Text-Decoder nicht korrekt extrahiert oder generiert.

2. Methodik

Die Autoren untersuchen 14 verschiedene Foundation-Modelle (inklusive VLMs wie Qwen, Gemma, CLIP, SigLIP und reine Vision-Encoder wie DINOv2, ConvNeXt) auf vier Datensätzen:

Datensätze: FreiHAND (Handpose), BIWI (Kopfhaltung), YCB-Video (Objektpose), MPIIFaceGaze (Blickrichtung).
Probing-Ansatz:
- Frozen Features: Es werden die versteckten Aktivierungen (Hidden Activations) der Encoder-Layer extrahiert.
- Linear Probe: Ein einfacher linearer Regressor (Reduzierter Rang Ridge Regression, RRR) wird auf diese eingefrorenen Features trainiert, um kontinuierliche Werte (z. B. Gelenkwinkel in Grad) vorherzusagen.
- Vergleich: Die Leistung dieser „Frozen Probes" wird mit der direkten Textausgabe des Modells (via Prompting) und mit LoRA-Feinabstimmung verglichen.
Statistische Analyse: Es werden Äquivalenztests (TOST), Friedman-Rangtests und Bootstrap-Konfidenzintervalle verwendet, um die Signifikanz von Unterschieden zwischen Architekturen zu bewerten.

3. Schlüsselbeiträge und Ergebnisse

A. Der Text-Bottleneck ist ein Trainingsdefizit, kein Repräsentationsdefizit

Ergebnis: Ein linearer Probe auf eingefrorenen Features erreicht einen mittleren absoluten Fehler (MAE) von 6,1° für Handgelenkwinkel.
Vergleich: Die beste Textausgabe (Few-Shot Prompting) erreicht nur 20,0° MAE.
Schlussfolgerung: Es besteht eine Lücke von Faktor 3,3. Die Geometrie ist im Modell vorhanden, wird aber vom Text-Decoder nicht genutzt.
LoRA-Lösung: Durch LoRA-Feinabstimmung (nur 2.000 Bilder, Rang 16) kann die Textausgabe auf 6,5° MAE verbessert werden. Dies beweist, dass der Textpfad die Geometrie lernen kann, wenn er entsprechend trainiert wird, ohne die Architektur zu ändern.

B. Trainingsziel bestimmt die Genauigkeit stärker als die Architektur

Konvergenz: Fünf verschiedene Encoder (DINOv3, SigLIP 2, CLIP, SigLIP, InternViT) erreichen trotz unterschiedlicher Architekturen und Trainingsmethoden eine statistisch äquivalente Genauigkeit ( $R^2 \approx 0,55$ ).
Repräsentationsähnlichkeit: Diese Modelle teilen sich nur eine sehr geringe repräsentative Ähnlichkeit (CKA $\approx 0,41$ ).
Fazit: Es gibt eine funktionale Konvergenz ohne repräsentative Konvergenz. Die Art des Trainings (selbstüberwacht vs. kontrastiv vs. generativ) ist entscheidender als die Architektur (ViT vs. CNN). Supervised-only Modelle (wie ConvNeXt oder DeiT) schneiden signifikant schlechter ab als selbstüberwachte/kontrastive Modelle.

C. Räumliche Abhängigkeit der Geometrie

Die Geometrie ist nicht gleichmäßig über alle Bildpatches verteilt.
Beobachtung: Bei lockeren Bildausschnitten (z. B. BIWI-Kopfpose) führt das Entfernen der aktivsten Patches zu einem starken Genauigkeitsverlust ( $\Delta R^2 \approx -0,13$ ). Bei stark zugeschnittenen Objekten (YCB-Video) ist der Effekt vernachlässigbar.
Dies erklärt, warum Attention-Pooling bei manchen Aufgaben große Verbesserungen bringt und bei anderen nicht.

D. Schichtweise Analyse (Layer Trajectory)

Bei Vision-Encodern steigt das geometrische Signal monoton mit der Schichttiefe an (Peak bei Layer 16–20).
Bei autoregressiven VLM-Decodern (LLM-Teile) fällt das Signal nach einem frühen Peak wieder ab, was darauf hindeutet, dass die autoregressive Verarbeitung feine Gelenkdetails verwirft.
LoRA hilft, das geometrische Signal in den tieferen Schichten des Decoders zu erhalten.

4. Signifikanz und Implikationen

Wissenschaftliche Erkenntnis: Die Studie erweitert die „Platonische Repräsentationshypothese" auf kontinuierliche geometrische Ziele. Sie zeigt, dass verschiedene Modelle unterschiedliche interne Wege finden, um dieselbe funktionale Aufgabe (Geometriemessung) zu lösen.
Praktische Anwendung:
- Multi-Task-Geometrie-Sensor: Ein einziger eingefrorener Backbone kann als universeller Sensor für verschiedene geometrische Aufgaben (Hand, Kopf, Objekt, Kamera-Intrinsik) dienen.
- Kosteneffizienz: Statt teurer, aufgabenspezifischer Modelle reicht es, pro Aufgabe einen leichten Linearpfropf (ca. 6.000 Parameter) mit wenigen tausend gelabelten Bildern zu trainieren.
- Menschlesbare Ausgabe: LoRA ermöglicht es, diese präzisen geometrischen Daten durch den Textpfad des Modells zu leiten, ohne die Basisarchitektur neu zu trainieren.
Limitationen: Die Genauigkeit ist bei Aufgaben mit geringer Varianz (z. B. Daumenbewegung) oder stark verstreuten Signalen begrenzt. Die Ergebnisse basieren primär auf Hand- und Kopfdaten; andere Szenarien könnten variieren.

Zusammenfassend beweist das Paper, dass Foundation-Modelle „wissen", wie Geometrie funktioniert, aber ihre Textschnittstelle oft versagt, dieses Wissen auszudrücken. Durch einfaches Probing und gezieltes Feinabstimmen (LoRA) kann dieses Potenzial für präzise physikalische Messungen freigesetzt werden.

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

1. Der stille Sensor vs. der laute Sprecher

2. Der „LoRA"-Schlüssel: Den Kanal öffnen

3. Der Baukasten-Effekt: Es kommt auf den Plan an, nicht auf den Baustoff

4. Wo sitzt das Wissen? (Die Schichten)

Warum ist das wichtig?

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge und Ergebnisse

A. Der Text-Bottleneck ist ein Trainingsdefizit, kein Repräsentationsdefizit

B. Trainingsziel bestimmt die Genauigkeit stärker als die Architektur

C. Räumliche Abhängigkeit der Geometrie

D. Schichtweise Analyse (Layer Trajectory)

4. Signifikanz und Implikationen

Mehr davon

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection