Simple 3D Pose Features Support Human and Machine Social Scene Understanding

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Wie wir wirklich sehen, wer mit wem redet: Die Kraft der 3D-Position

Stellen Sie sich vor, Sie stehen auf einer belebten Straße. Zwei Personen stehen sich gegenüber, lachen und gestikulieren. In einem Sekundenbruchteil wissen Sie: „Die beiden unterhalten sich!" Sie müssen nicht analysieren, welche Farbe ihre Hemden haben oder wie genau ihre Haare aussehen. Ihr Gehirn nutzt einen ganz einfachen Trick: Es schaut darauf, wo die Leute stehen und wohin sie schauen.

Genau das haben die Forscher von der Johns Hopkins University herausgefunden. Sie haben untersucht, warum moderne Computer (Künstliche Intelligenz) oft scheitern, wenn es darum geht, soziale Interaktionen zu erkennen, während Menschen das mühelos können.

1. Der große Fehler der Computer: Sie sind zu sehr auf das „Was" fixiert

Stellen Sie sich eine KI wie einen sehr fleißigen, aber etwas naiven Maler vor. Wenn dieser Maler ein Bild sieht, zählt er alles auf: „Hier ist ein rotes Hemd, dort ein blauer Hintergrund, und die Person hat eine Nase." Er ist super darin, Objekte zu erkennen. Aber wenn er zwei Menschen sieht, die sich unterhalten, versteht er oft nicht, dass sie sich unterhalten.

Die Forscher haben über 350 verschiedene KI-Modelle getestet. Das Ergebnis war ernüchternd: Diese KIs waren gut darin, die Größe des Raumes zu schätzen (z. B. „Das ist ein großer Park"), aber sie waren schlecht darin zu erkennen, ob sich die Menschen nahe stehen, sich anblicken oder sich berühren. Sie verpassten den „Sozialen Klebstoff", der die Szene zusammenhält.

2. Der menschliche Trick: Ein unsichtbares 3D-Gitter

Die Forscher stellten eine spannende These auf: Menschen verlassen sich nicht auf die Details (wie die Nase oder die Kleidung), sondern auf eine Art unsichtbares 3D-Gitter.

Stellen Sie sich vor, Sie kleben unsichtbare Punkte auf die Gelenke von zwei Personen (Schultern, Ellbogen, Hände). Wenn Sie nun nur diese Punkte im Raum betrachten, sehen Sie sofort:

Stehen sie nah beieinander?
Zeigen ihre Körper in die gleiche Richtung?
Berühren sich ihre Hände?

In der Studie haben die Forscher genau das getan. Sie haben aus Videos nur diese 3D-Punkte (die Gelenke) extrahiert und eine KI damit trainiert, menschliche Einschätzungen vorherzusagen.
Das Ergebnis: Diese einfache Punktwolke war besser darin, zu erraten, was Menschen denken, als die riesigen, komplexen KI-Modelle, die ganze Bilder analysieren.

3. Die ultimative Vereinfachung: Nur Position und Blickrichtung

Aber es wurde noch einfacher! Die Forscher fragten sich: „Brauchen wir wirklich alle Gelenkpunkte?"
Stellen Sie sich vor, Sie müssten zwei Menschen beschreiben, ohne ihre Arme oder Beine zu erwähnen. Was wäre das Wichtigste?

Wo stehen sie? (Position im Raum)
Wohin schauen sie? (Blickrichtung)

Die Forscher reduzierten die komplexen 3D-Daten auf genau diese zwei Informationen pro Person. Das ist wie der Unterschied zwischen einer detaillierten Landkarte mit jedem einzelnen Baum und einem simplen Kompass, der nur zeigt: „Person A ist hier, Person B ist dort, und sie schauen sich an."

Das Überraschende: Diese winzige Menge an Daten (nur Position und Richtung) reichte aus, um menschliche Urteile fast genauso gut vorherzusagen wie die komplexen Gelenkdaten. Und noch wichtiger: Nur die 3D-Version funktionierte. Wenn man die Tiefe wegnahm (also nur eine flache 2D-Ansicht wie auf einem Foto), versagte die Vorhersage. Das zeigt: Unser Gehirn braucht das Gefühl von Tiefe, um soziale Szenen zu verstehen.

4. Was lernen wir daraus für die Zukunft?

Die Studie zeigt uns zwei Dinge:

KIs haben eine Lücke: Moderne KIs lernen oft, Dinge zu erkennen, aber sie verstehen nicht die räumliche Beziehung zwischen Menschen. Sie sehen die Akteure, aber nicht das „Zwischen" (die Interaktion).
Die Lösung ist simpel: Um KIs menschlicher zu machen, müssen wir ihnen nicht unbedingt mehr Daten geben oder sie noch komplexer machen. Stattdessen müssen wir ihnen explizit sagen: „Achte darauf, wo die Leute stehen und wohin sie schauen."

Ein einfaches Bild zum Schluss:
Stellen Sie sich vor, Sie versuchen, ein Gespräch zwischen zwei Leuten zu verstehen, indem Sie nur auf ihre Kleidung achten (das machen die aktuellen KIs). Das hilft wenig. Die Forscher sagen: „Schau einfach auf ihre Füße und ihre Nasen." Wenn die Füße nah beieinander sind und die Nasen aufeinander zeigen, dann wissen Sie: Hier passiert etwas Soziales. Diese einfache 3D-Logik ist der Schlüssel, den sowohl unser Gehirn als auch die nächste Generation von Kilen nutzen sollten.

Zusammengefasst: Menschen verstehen soziale Interaktionen, weil sie die 3D-Raumordnung der Körper lesen. KIs tun sich schwer damit, weil sie diese räumliche Logik oft ignorieren. Wenn wir KIs helfen, diese einfache 3D-Position zu verstehen, werden sie plötzlich viel besser darin, unsere soziale Welt zu begreifen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Menschen können soziale Interaktionen aus visuellen Eingaben mühelos und sofort erkennen. Diese Fähigkeit ist eine Kernkompetenz des menschlichen Gehirns, die auf der Extraktion von visuell-räumlichen Merkmalen (wie relativen Positionen, Richtungen und Bewegungen von Körpern) basiert.

Trotz rascher Fortschritte bei Deep Neural Networks (DNNs) in der Objekterkennung und Bildbeschreibung bleiben diese Modelle bei der Modellierung menschlicher sozialer Sichtweise (Social Vision) hinter den menschlichen Fähigkeiten zurück. Selbst state-of-the-art (SOTA) Modelle, die auf großen Datensätzen trainiert wurden, können soziale Merkmale wie „sich gegenüberstehen" oder „soziale Interaktion" nicht zuverlässig erkennen. Die Autoren vermuten, dass der Grund dafür darin liegt, dass aktuelle Vision-DNNs explizite 3D-Visuospazial-Pose-Informationen (z. B. Blickrichtung, physischer Kontakt, räumliche Tiefe) nicht ausreichend erfassen, auf die Menschen jedoch für soziale Urteile angewiesen sind.

2. Methodik

Die Studie verfolgt einen datengesteuerten Ansatz, um zu testen, ob explizite 3D-Pose-Informationen menschliche soziale Urteile besser vorhersagen können als die eingebetteten Repräsentationen moderner DNNs.

Datensatz: Es wurden 250 kurze, stumme Videoclips (je 3 Sekunden) aus dem „Moments in Time"-Datensatz verwendet, die zwei Personen bei alltäglichen Handlungen zeigen. Diese Clips wurden von Menschen auf fünf Dimensionen bewertet:
1. Räumliche Ausdehnung (Spatial Expanse) – Szenengröße.
2. Interagenten-Abstand (Interagent Distance) – physische Distanz.
3. Ausrichtung der Agenten (Agents Facing) – Blickrichtung zueinander.
4. Kommunikative Interaktion (Communicative Interaction) – Austausch von Informationen.
5. Physische Interaktion (Physical Interaction) – direkter Körperkontakt oder koordinierte Aktionen.
Pose-Estimation-Pipeline:
- Die Autoren entwickelten eine Pipeline zur automatischen Extraktion von 3D-Körpergelenken aus den Videos.
- Sie kombinierten das 4D Humans-Modell (basierend auf HMR 2.0) zur Schätzung von Körperparametern (SMPL-X) mit dem BEV-Modell (Bird's-Eye View) zur Korrektur der Tiefenschätzung, insbesondere bei Kindern.
- Ergebnis: 3D-Koordinaten (x, y, z) für 45 Gelenkpunkte (Körper, Gesicht, Hände, Füße) pro Person, gemittelt über 90 Frames pro Clip.
Vergleichsgruppen:
1. Vision DNNs: Über 350 vortrainierte Bild- und Video-Modelle (z. B. CLIP, ViT, ResNet, SlowFast, TimeSformer) wurden getestet. Die besten Embeddings (Schichtauswahl) wurden extrahiert.
2. Explizite 3D-Gelenke: Die rohen 3D-Koordinaten der 45 Gelenkpunkte.
3. Kompakte 3D-Social-Pose-Features: Eine stark reduzierte Merkmalsmenge, die nur die Position (x, y, z) und die Ausrichtung (dx, dy, dz) der Gesichter der beiden Personen umfasst (insgesamt 12 Dimensionen).
4. 2D-Varianten: Entsprechende 2D-Projektionen der oben genannten Features.
Auswertungsframework:
- Es wurde ein Ridge-Regression-Encoder verwendet, um die Merkmale auf die menschlichen Bewertungen abzubilden.
- Die Leistung wurde mittels Pearson-Korrelation ( $r$ ) zwischen den vorhergesagten und den tatsächlichen menschlichen Bewertungen gemessen.
- Statistische Tests (Permutationstests) wurden durchgeführt, um Signifikanz zu prüfen.

3. Wichtige Beiträge und Ergebnisse

A. 3D-Gelenke übertreffen DNNs

Die expliziten 3D-Körpergelenke sagten menschliche soziale Urteile konsistent besser vorher als der Durchschnitt aller getesteten 350+ Vision-DNNs.

Besonders stark war der Vorsprung bei sozialen Merkmalen wie „Ausrichtung der Agenten" (Übertreffen von 99 % der Modelle) und „physische Interaktion" (Übertreffen von 98 % der Modelle).
Selbst die internen Embeddings des 4D-Humans-Modells (das die Gelenke generiert) schnitten schlechter ab als die expliziten Gelenkdaten selbst, was darauf hindeutet, dass das Modell die sozialen Informationen in seinem latenten Raum nicht explizit kodiert.

B. Kompakte 3D-Features sind ausreichend

Die Autoren zeigten, dass die komplexen 45-Gelenk-Daten durch eine extrem einfache Merkmalsmenge ersetzt werden können: Position und Ausrichtung der beiden Personen im 3D-Raum.

Diese kompakten 3D-Features erreichten fast die gleiche Vorhersagegenauigkeit wie die vollständigen 3D-Gelenke (Durchschnittliche Differenz in der Korrelation nur 0,03).
Im Gegensatz dazu schnitten 2D-Features (ohne Tiefeninformation) signifikant schlechter ab. Dies unterstreicht, dass explizite 3D-Information für das menschliche Verständnis sozialer Szenen entscheidend ist.

C. Korrelation mit DNN-Leistung

Es wurde ein signifikanter positiver Zusammenhang gefunden: Vision-DNNs, deren Embeddings die 3D-Social-Pose-Features besser vorhersagen konnten, korrelierten stärker mit menschlichen sozialen Urteilen.

Dies gilt für soziale Merkmale (Abstand, Ausrichtung, Interaktion), aber nicht für szenenzentrierte Merkmale wie die räumliche Ausdehnung.
Dies bestätigt, dass die Fähigkeit, 3D-Pose-Informationen zu kodieren, ein Schlüsselfaktor für das menschlicheähnliche soziale Verständnis in DNNs ist.

D. Verbesserung von DNNs durch Pose-Features

Durch die Kombination der DNN-Embeddings mit den einfachen 3D-Social-Pose-Features (mittels Grouped Ridge Regression) konnte die Vorhersageleistung für menschliche Bewertungen signifikant gesteigert werden.

Die Korrelationen verbesserten sich in allen fünf Dimensionen (z. B. +0,29 bei „Agents Facing").
Dies beweist, dass die 3D-Pose-Features komplementäre Informationen liefern, die in den aktuellen vortrainierten Embeddings fehlen.

4. Bedeutung und Fazit

Die Studie liefert starke Evidenz dafür, dass das menschliche soziale Wahrnehmungssystem auf expliziten, niedrigdimensionalen 3D-Pose-Informationen (Position und Blickrichtung) basiert, die in den meisten modernen Vision-DNNs fehlen.

Für die KI-Forschung: Das bloße Skalieren von Architekturen oder Trainingsdaten reicht möglicherweise nicht aus, um menschliches soziales Verständnis zu erreichen. Stattdessen müssen Modelle explizite 3D-Strukturen und räumliche Beziehungen integrieren. Die Einführung solcher Features kann die Leistung von DNNs bei sozialen Aufgaben signifikant verbessern und die Interpretierbarkeit erhöhen.
Für die Kognitionswissenschaft: Die Ergebnisse stützen kognitive Theorien, wonach einfache visuell-räumliche Merkmale die Bausteine für höhere soziale Schlussfolgerungen sind.
Zukunftsausblick: Die Autoren schlagen vor, zukünftige Modelle mit solchen expliziten Pose-Repräsentationen zu versehen, um eine effizientere und menschenähnlichere soziale Interaktionserkennung zu ermöglichen. Zudem wird auf die Notwendigkeit hingewiesen, dynamische Aspekte (Bewegungssynchronität) und neurobiologische Korrelate (z. B. im extrastriären Körperbereich) weiter zu erforschen.

Zusammenfassend demonstriert das Papier, dass „einfache" 3D-Pose-Daten oft mächtiger sind als komplexe, aber unstrukturierte Deep-Learning-Embeddings, wenn es darum geht, die menschliche Fähigkeit zu verstehen, soziale Szenen zu interpretieren.