Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Die Studie stellt I2S (Interact2Sign) vor, ein leichtgewichtiges, mehrstufiges Framework zur unobtrusiven Benutzeridentifizierung in Echtzeit durch Analyse von 3D-Handposen bei Mensch-Objekt-Interaktionen, das auf dem ARCTIC- und H2O-Datensätzen eine Genauigkeit von 97,52 % erreicht und sich ideal für sicherheitskritische AR-Systeme eignet.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie tragen eine Brille, die alles sieht, was Sie tun – wie eine GoPro, die an Ihrer Stirn klebt. Das nennt man „Egocentric Vision" (Ich-Perspektive). In solchen Szenarien sieht die Kamera oft nur Ihre Hände und die Gegenstände, mit denen Sie hantieren, aber nicht Ihr Gesicht.

Die Forscher aus diesem Papier haben sich eine clevere Frage gestellt: Können wir eine Person nur daran erkennen, wie sie Dinge in die Hand nimmt und benutzt?

Hier ist die Erklärung ihrer Lösung, genannt I2S (Interact2Sign), in einfachen Worten:

1. Das Problem: Der unsichtbare Pass

Normalerweise erkennen Computer uns an unserem Gesicht oder Fingerabdruck. Aber in einer AR-Brille (Augmented Reality), die Piloten oder Chirurgen tragen, ist das Gesicht oft verdeckt oder nicht im Fokus. Die Hände sind jedoch immer da.
Die Forscher sagen: „Jeder von uns hat eine eigene, einzigartige Handschrift – nicht nur beim Schreiben, sondern auch beim Greifen, Drehen und Halten von Gegenständen."

2. Die Lösung: Ein dreistufiger Detektiv

Das System I2S funktioniert wie ein sehr aufmerksamer Detektiv, der in drei Schritten arbeitet, um herauszufinden, wer gerade die Brille trägt:

  • Schritt 1: Was ist das für ein Ding?
    Zuerst schaut das System auf die Hand und fragt: „Ist das eine Kaffeemaschine, ein Laptop oder eine Schere?" Es erkennt das Objekt.
    Analogie: Wie wenn Sie jemanden sehen, der eine Gitarre hält. Zuerst wissen Sie: „Ah, das ist eine Gitarre."

  • Schritt 2: Was macht er damit?
    Dann schaut es genauer hin: „Greift er sie nur an, oder spielt er darauf?" Es erkennt die Handlung (Interaktion).
    Analogie: „Okay, er spielt nicht nur darauf, er stimmt die Saiten."

  • Schritt 3: Wer ist das?
    Jetzt kommt der Trick: Das System analysiert die Art und Weise, wie diese Person die Gitarre hält. Hält sie den Hals fest? Bewegt sich der Daumen schnell? Das ist die „Handschrift" der Person.
    Analogie: Selbst wenn Sie die Gitarre nicht sehen, wissen Sie, dass es Ihr Freund ist, weil er die Saiten immer auf eine ganz bestimmte, typische Weise zupft.

3. Der neue „Super-Indikator": IHSE

Die Forscher haben ein neues Werkzeug erfunden, das sie IHSE (Inter-Hand Spatial Envelope) nennen.
Stellen Sie sich vor, Sie halten einen Ball mit beiden Händen. Der Raum zwischen Ihren Händen, wie weit sie auseinander sind und wie sie sich synchron bewegen, ist wie eine unsichtbare Hülle.

  • Die Metapher: Wenn Sie einen großen Ball halten, sind Ihre Hände weit auseinander. Wenn Sie eine kleine Nadel halten, sind sie nah beieinander. Aber wie Sie diese Distanz halten – zittern Sie? Sind Ihre Hände steif? Das verrät viel über die Person. Dieses Werkzeug misst genau diese „unsichtbare Hülle" zwischen den beiden Händen.

4. Warum ist das so cool? (Die Vorteile)

  • Schnell und Leicht: Die meisten modernen KI-Systeme sind wie riesige, schwere Elefanten, die viel Strom brauchen. Dieses System ist wie ein flinker Eichhörnchen. Es ist so klein (unter 4 MB), dass es auf einem normalen Handy oder einer AR-Brille läuft, ohne dass die Batterie sofort leer ist.
  • Sicher: Es ist schwer zu fälschen. Man kann sich leicht einen falschen Fingerabdruck anlegen, aber es ist extrem schwer, sich die Bewegungsmuster einer anderen Person beim Öffnen einer Schere oder beim Bedienen einer Kaffeemaschine genau zu merken.
  • Privatsphäre: Es braucht kein Foto Ihres Gesichts. Es schaut nur auf die Hände. Das ist für viele Menschen entspannender.

5. Das Ergebnis

Die Forscher haben das System mit echten Daten getestet (Menschen, die verschiedene Gegenstände manipulieren).

  • Das System hat in 97,5 % der Fälle genau gewusst, wer die Person ist.
  • Es braucht dafür nur 0,1 Sekunden – das ist schneller als ein Blinzeln.

Zusammenfassung

Stellen Sie sich vor, Sie betreten einen sicheren Raum. Statt einen Ausweis vorzuzeigen oder in eine Kamera zu schauen, nehmen Sie einfach einen Werkzeugkasten und fangen an, ein Schraubenschlüssel zu drehen. Das System an der Tür beobachtet Ihre Hände, erkennt, dass Sie genau so einen Schraubenschlüssel drehen wie immer, und öffnet die Tür.

Das ist I2S: Ein unsichtbarer Wächter, der Sie an Ihrer einzigartigen Art erkennt, die Welt zu berühren.