Embedded Inter-Subject Variability in Adversarial Learning for Inertial Sensor-Based Human Activity Recognition

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Jeder macht Dinge anders

Stell dir vor, du möchtest einem Computer beibringen, zu erkennen, was ein Mensch gerade tut (z. B. Laufen, Treppensteigen oder Kaffee trinken). Der Computer schaut sich dabei auf die Daten von Sensoren an, die wir am Körper tragen (wie in einer Smartwatch).

Das Problem ist: Jeder Mensch bewegt sich anders.

Wenn du läufst, machst du vielleicht große Schritte und wackelst ein bisschen.
Wenn deine Oma läuft, macht sie kleine, vorsichtige Schritte.
Wenn ein Sportler läuft, ist er sehr schnell und rhythmisch.

Für den Computer sind das völlig unterschiedliche Signale, obwohl beide „Laufen" heißen. Wenn man einen Computer nur mit Daten von dir trainiert, versteht er deine Oma nicht. Das nennt man das Problem der „Inter-Subject-Variabilität" (Unterschiede zwischen den Personen).

Die Lösung: Ein neuer Trick für den KI-Trainer

Die Autoren dieses Papiers haben eine clevere Methode entwickelt, um diesen Computer so zu trainieren, dass er alle Menschen versteht, auch solche, die er noch nie gesehen hat. Sie nennen es ein „Adversarial Learning Framework" (ein gegnerisches Lernsystem).

Hier ist die Idee in drei einfachen Schritten, mit einer Analogie:

1. Der Detektiv und der Tarnkappen-Meister

Stell dir das System wie ein Spiel zwischen zwei Charakteren vor:

Der Tarnkappen-Meister (Feature Extractor): Seine Aufgabe ist es, die Bewegung zu analysieren und eine Art „Zusammenfassung" davon zu erstellen. Aber er hat einen Trick: Er muss die Bewegung so zusammenfassen, dass man nicht mehr erkennen kann, wer sie gemacht hat. Er muss die „Tarnung" perfektionieren.
Der Detektiv (Discriminator): Dieser versucht, aus der Zusammenfassung herauszufinden: „Hey, das war bestimmt Person A!" oder „Das war Person B!"

2. Das Spiel: „Wer ist wer?"

Normalerweise würde der Detektiv versuchen, die Person zu identifizieren. Aber hier machen die Autoren etwas Neues:
Sie sagen dem Detektiv: „Versuche herauszufinden, ob diese zwei Bewegungen von derselben Person stammen oder von zwei verschiedenen Personen."

Wenn der Detektiv sagt: „Das sind zwei verschiedene Leute!", dann hat der Tarnkappen-Meister versagt.
Wenn der Detektiv verwirrt ist und nicht mehr unterscheiden kann, ob die zwei Bewegungen von derselben Person oder von zwei verschiedenen Leuten kamen (weil beide Bewegungen so ähnlich „tarnen" sind), dann hat der Tarnkappen-Meister gewonnen.

Der Clou: Indem der Tarnkappen-Meister lernt, die Unterschiede zwischen den Personen zu verwischen (zu tarnen), bleibt nur noch das Wesentliche übrig: Die eigentliche Bewegung.
Er lernt also: „Egal ob du oder deine Oma läuft – das Signal für 'Laufen' sieht im Kern gleich aus. Die Unterschiede sind nur Rauschen."

3. Der Ergebnis-Sieg

Am Ende hat der Computer eine Art „universelle Landkarte" der Bewegungen erstellt. Auf dieser Karte sieht „Laufen" für alle gleich aus, egal wer es macht.

Das Ergebnis: Der Computer funktioniert jetzt super gut, auch wenn er eine völlig neue Person trifft, die er noch nie gesehen hat. Er muss nicht erst lernen, wie diese spezifische Person läuft.

Warum ist das so wichtig?

Bisherige Methoden waren wie ein Lehrer, der nur mit einer Klasse arbeitet. Wenn ein neuer Schüler kommt, muss der Lehrer alles neu lernen.
Diese neue Methode ist wie ein Lehrer, der versteht, dass alle Schüler unterschiedlich schreiben, aber das Wort „Hallo" trotzdem immer gleich gemeint ist.

Zusammengefasst:
Die Forscher haben einen cleveren Trick erfunden, bei dem die KI lernt, die persönlichen „Stil-Unterschiede" der Menschen zu ignorieren und sich nur auf die reine Bewegung zu konzentrieren. Das macht die Technik robuster, privatsphärenfreundlicher (da sie nicht mehr versucht, Personen zu identifizieren) und viel genauer für neue Nutzer.

Das ist wie ein Universal-Schlüssel, der für jede Tür passt, weil er gelernt hat, die unterschiedlichen Schlossmechanismen zu überbrücken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem der Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) unter Verwendung von Daten tragbarer inertialer Sensoren (IMUs). Ein zentrales Hindernis bei der Anwendung von HAR-Modellen in der Praxis ist die Generalisierung auf neue, unbekannte Personen.

Herausforderung: Es besteht eine hohe Inter-Subject-Variabilität (Variabilität zwischen Probanden). Das bedeutet, dass dieselbe Aktivität von verschiedenen Personen unterschiedlich ausgeführt wird (unterschiedliche Intensität, Geschwindigkeit, biomechanische Merkmale).
Folge: Diese Heterogenität führt zu Verschiebungen in den Datenverteilungen zwischen Trainings- und Testdaten. Modelle, die auf einer bestimmten Personengruppe trainiert wurden, zeigen oft eine schlechte Leistung bei neuen Personen, wenn sie nicht speziell darauf trainiert wurden.
Limitationen bestehender Ansätze: Bisherige Methoden wie Multi-Task-Learning (Kombination von Aktivitäts- und Benutzererkennung) oder adversarielle Lernansätze haben Schwächen. Entweder skalieren sie schlecht mit der Anzahl der Benutzer (da die Klassifikationsklassen wachsen), verletzen die Privatsphäre (durch explizite Benutzererkennung) oder erreichen keine konsistente Generalisierung über alle Benutzer hinweg.

2. Methodik

Die Autoren schlagen einen neuartigen tiefen adversariellen Lernrahmen (Deep Adversarial Framework) vor, der das Konzept der Inter-Subject-Variabilität direkt in die adversarielle Aufgabe integriert.

Kernarchitektur

Das Framework besteht aus vier Hauptblöcken:

Feature-Extraktor ( $F$ ): Kodiert die rohen Sensordaten in einen latenten Merkmalsraum.
Rekonstruktor ( $R$ ): Dekodiert den latenten Raum zurück in den Eingaberaum (zur Stabilisierung des Trainings).
Aktivitätsklassifikator ( $C$ ): Klassifiziert die latenten Merkmale in die Zielaktivitäten.
Diskriminator ( $D$ ): Führt eine neue binäre Diskriminierungsaufgabe durch.

Die innovative Diskriminierungsaufgabe

Im Gegensatz zu früheren Ansätzen, die nur fragen „Stammen diese Merkmale vom selben Benutzer?", integriert die neue Aufgabe auch die Aktivitätsinformation.

Eingabe: Paare von Merkmalsvektoren $(x_a, x_b)$ , die dieselbe Aktivität $y$ repräsentieren.
Ziel des Diskriminators: Unterscheiden, ob das Paar von derselben Person ( $g=1$ ) oder von verschiedenen Personen ( $g=0$ ) stammt, wobei die Aktivität in beiden Fällen identisch ist.
Ziel des Feature-Extraktors: Merkmale so zu lernen, dass der Diskriminator nicht mehr unterscheiden kann, ob die Daten von derselben Person oder einer anderen Person stammen (solange die Aktivität gleich ist). Dies zwingt das Modell, benutzerinvariante Merkmale zu extrahieren.

Trainingsprozess (Drei Schritte)

Rekonstruktion: Vor-Training von $F$ und $R$ mittels Rekonstruktionsverlust ( $L_R$ ).
Supervisiertes Lernen: Gleichzeitiges Training von $F, R, C$ und $D$ unter Verwendung von Aktivitätsverlust ( $L_C$ ) und Diskriminierungsverlust ( $L_D$ ).
Adversarielles Lernen: Iteratives Training im Stil von GANs (Generative Adversarial Networks):
- $F$ wird trainiert, um $D$ zu täuschen (Verwendung eines nicht-sättigenden GAN-Verlusts $L_A$ ), während $L_C$ und $L_R$ erhalten bleiben.
- $D$ wird trainiert, um die Paare korrekt zu unterscheiden.
- Dies führt dazu, dass der latente Raum für dieselbe Aktivität über verschiedene Benutzer hinweg konsolidiert wird.

Verlustfunktion

Die kombinierte Verlustfunktion für den Feature-Extraktor im adversariellen Schritt lautet:
$L_{step3.1} = w_A L_A + w_R L_R + w_C L_C$
Dabei gewichtet $w_A$ den adversariellen Anteil, der die Inter-Subject-Variabilität reduziert.

3. Wichtige Beiträge

Neues adversarielles Framework: Integration des Konzepts der Inter-Subject-Variabilität in die Diskriminierungsaufgabe, indem Aktivität und Benutzerdimension gemeinsam betrachtet werden.
Skalierbare binäre Klassifikation: Die Diskriminierungsaufgabe ist binär (selbe Person vs. verschiedene Person) und skaliert nicht mit der Anzahl der Benutzer (im Gegensatz zu Multi-Class-Ansätzen).
Neue kombinierte Verlustfunktion: Einbindung der nicht-sättigenden GAN-Verlustfunktion, um benutzerinvariante Repräsentationen zu lernen.
Umfassende Evaluation: Validierung mittels Leave-One-Subject-Out (LOSO) Kreuzvalidierung auf drei etablierten Datensätzen (PAMAP2, MHEALTH, REALDISP).

4. Ergebnisse

Die Methode wurde auf drei Datensätzen (PAMAP2, MHEALTH, REALDISP) getestet und mit State-of-the-Art-Methoden (MCCNN, DCLSTM, METIER, UIDFE, DDLearn) verglichen.

Leistungssteigerung: Das vorgeschlagene Modell übertraf alle Vergleichsmethoden in Bezug auf Genauigkeit (Accuracy) und F1-Score (Macro) unter LOSO-Bedingungen.
- Beispiel REALDISP: Steigerung der Genauigkeit von ~94,5 % (bester vorheriger Wert) auf 97,1 %.
- Beispiel PAMAP2: Steigerung von ~80,1 % auf 87,0 %.
Reduktion der Verteilungsdistanz: Eine Analyse mittels Wasserstein-Distanz zeigte, dass der adversarielle Schritt (Schritt 3) die Distanz zwischen den Trainings- und Testverteilungen für dieselben Aktivitäten signifikant verringert. Dies bestätigt, dass die Inter-Subject-Variabilität im Merkmalsraum reduziert wurde.
Robustheit: Das Modell zeigte eine geringere Varianz (kleinerer Interquartilsabstand) und höhere Mindestwerte über alle Datensätze hinweg, was auf eine robustere Generalisierung hindeutet.
Ablationsstudie: Der Vergleich zeigte, dass sowohl der Rekonstruktor als auch der adversarielle Schritt entscheidend für die Leistungssteigerung sind. Der reine überwachte Ansatz (Schritt 2) war deutlich schlechter als das vollständige Framework (Schritt 3).
Vergleich Diskriminator-Aufgaben: Die neue Diskriminierungsaufgabe (Aktivität + Benutzer) schnitt besser ab als reine Benutzer-Diskriminierung (wie in [8]) oder reine Paar-Vergleiche ohne Aktivitätskontext (wie in [10]).

5. Bedeutung und Fazit

Die Arbeit liefert einen signifikanten Beitrag zur Entwicklung robuster HAR-Systeme, die benutzeragnostisch funktionieren.

Praktische Relevanz: Da keine zusätzlichen Daten von neuen Benutzern für das Training benötigt werden, ist die Methode ideal für den Einsatz in realen Szenarien (z. B. Gesundheitsmonitoring, Robotik), wo das Sammeln großer Datenmengen für jeden neuen Nutzer unpraktisch ist.
Privatsphäre: Durch die Vermeidung einer expliziten Benutzerklassifikation (im Gegensatz zu Multi-Task-Ansätzen) werden potenzielle Datenschutzbedenken gemindert.
Zukunftsperspektive: Der Ansatz demonstriert, dass die explizite Modellierung der Variabilität innerhalb der adversariellen Aufgabe effektiver ist als das bloße Entfernen von Benutzerinformationen. Dies ebnet den Weg für adaptivere und zuverlässigere tragbare KI-Systeme.

Zusammenfassend beweist das Paper, dass die gezielte Einbettung der Inter-Subject-Variabilität in den adversariellen Lernprozess die Generalisierungsfähigkeit von HAR-Modellen erheblich verbessert und den „Generalization Gap" für neue Nutzer schließt.