HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Roboter ist wie ein neuer Mieter in einem smarten Haus. Um sich dort zurechtzufinden und mit den Bewohnern zu sprechen, muss er verstehen, was die Menschen tun. Bisher waren diese Roboter fast ausschließlich auf ihre „Augen" (Kameras) angewiesen. Das ist wie ein Mensch, der versucht, ein Gespräch zu führen, während er eine dicke Brille trägt, die bei Dunkelheit nichts sieht, bei Nebel trüb wird und die er nicht tragen darf, wenn er die Privatsphäre der anderen respektieren soll.

Die Forscher aus Singapur haben nun HoloLLM entwickelt – einen „Super-Roboter-Gehirn", der viel mehr Sinne nutzt als nur das Sehen.

Hier ist die Erklärung der Arbeit, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der blinde Fleck der Kameras

Künstliche Intelligenz (KI), die Sprache und Bilder versteht (sogenannte Vision-Language-Modelle), ist toll, aber sie hat Schwächen:

Dunkelheit: Kameras sehen im Dunkeln nichts.
Verdeckungen: Wenn jemand hinter einem Sofa sitzt, sieht die Kamera ihn nicht.
Privatsphäre: In Badezimmern oder Schlafzimmern wollen wir keine Kameras.

Menschen nutzen aber nicht nur ihre Augen. Wir hören Schritte, spüren Vibrationen und riechen Veränderungen. HoloLLM versucht, genau das nachzuahmen. Es nutzt „unsichtbare" Sinne wie Radar (wie bei Flugzeugen), WiFi-Signale (die durch Wände gehen), Infrarot (Wärmebilder) und LiDAR (Laser-Abtastung).

2. Das große Hindernis: Der fehlende Wörterbuch

Das Problem bei diesen neuen Sinnen ist: Es gibt keine großen „Wörterbücher".

Für Bilder gibt es Millionen von Beispielen im Internet (Bilder + Beschreibungen).
Für Radar- oder WiFi-Signale gibt es nur winzige Datensätze aus Laboren.

Es ist, als würdest du versuchen, einem Kind beizubringen, eine neue Sprache zu sprechen, indem du ihm nur 50 Wörter gibst, statt Millionen. Zudem sind diese Signale sehr „fremd" für die KI. Ein WiFi-Signal sieht für eine KI völlig anders aus als ein Foto.

3. Die Lösung: HoloLLM und der „Universal-Injectoren" (UMIP)

Die Forscher haben eine clevere Abkürzung gefunden, um diese wenigen Daten nutzbar zu machen.

Schritt A: Der „Vorkenntnis-Transfer"
Statt von Null zu beginnen, nutzen sie eine KI, die bereits gelernt hat, Bilder mit Sprache zu verbinden (ein sogenannter CLIP-Encoder). Sie sagen im Grunde: „Hey, wir wissen nicht genau, wie dieses WiFi-Signal aussieht, aber wir wissen, wie ein Bild aussieht. Lass uns das WiFi-Signal erst einmal so behandeln, als wäre es ein Bild, damit wir eine grobe Vorstellung bekommen."
Das gibt dem System einen Startvorteil, ohne dass es riesige Datenmengen braucht.

Schritt B: Der „Universal Modality-Injection Projector" (UMIP)
Das ist das Herzstück. Stell dir UMIP vor wie einen hohen Übersetzer, der zwei Sprachen zusammenbringt:

Die grobe Sprache (die Vorhersage aus dem Bild-Modell).
Die feinen Details (die spezifischen Merkmale des Radar- oder WiFi-Signals, die ein spezieller Experte-Encoder erkennt).

Der UMIP nimmt die grobe Idee und „injiziert" sie mit den feinen Details. Er fragt sich immer wieder: „Passt dieses Detail hier zu dem, was wir schon wissen?" und verfeinert die Antwort schrittweise. So entsteht ein Verständnis, das sowohl die Sprache als auch die physikalischen Signale perfekt verbindet.

Schritt C: Der menschliche Helfer
Da es keine Texte zu den Sensordaten gab, haben die Forscher eine „Mensch-KI-Kooperation" entwickelt. Menschen haben ein paar Beispiele beschrieben, und eine andere KI (GPT-4o) hat daraus unzählige neue Fragen und Antworten generiert. So entstand ein neues Wörterbuch für diese unsichtbaren Sinne.

4. Das Ergebnis: Der Roboter wird zum Allrounder

In Tests hat sich gezeigt, dass HoloLLM deutlich besser ist als alle bisherigen Modelle:

Es erkennt menschliche Aktionen (z. B. „Jemand ist hingefallen") auch dann, wenn die Person hinter einem Möbelstück sitzt oder das Licht aus ist.
Es kann Fragen beantworten („Was macht die Person im Raum?") und Szenen beschreiben, basierend auf Radar- oder WiFi-Daten.
Die Genauigkeit stieg um bis zu 30 % im Vergleich zu anderen Systemen.

Zusammenfassung in einem Satz

HoloLLM ist wie ein Detektiv, der nicht nur auf seine Augen vertraut, sondern auch auf seine Ohren, sein Gefühl für Vibrationen und seine Intuition, um auch in dunklen, verdeckten oder privaten Räumen zu verstehen, was vor sich geht – und das alles, indem er lernt, mit sehr wenigen Beispielen zu arbeiten.

Dies ist ein großer Schritt hin zu Robotern, die wirklich sicher und diskret in unseren Häusern leben können, ohne dass wir uns Sorgen um Kameras oder Dunkelheit machen müssen.

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

1. Das Problem: Der blinde Fleck der Kameras

2. Das große Hindernis: Der fehlende Wörterbuch

3. Die Lösung: HoloLLM und der „Universal-Injectoren" (UMIP)

4. Das Ergebnis: Der Roboter wird zum Allrounder

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: HoloLLM

A. Universal Modality-Injection Projector (UMIP)

B. Zwei-Stufen-Trainingsstrategie

C. Datenkuratierungs-Pipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

1. Das Problem: Der blinde Fleck der Kameras

2. Das große Hindernis: Der fehlende Wörterbuch

3. Die Lösung: HoloLLM und der „Universal-Injectoren" (UMIP)

4. Das Ergebnis: Der Roboter wird zum Allrounder

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: HoloLLM

A. Universal Modality-Injection Projector (UMIP)

B. Zwei-Stufen-Trainingsstrategie

C. Datenkuratierungs-Pipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora