Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, onzichtbare assistent hebt die in het huis van je grootouders woont. Deze assistent is niet daar om te bespioneren, maar om te zorgen dat ze veilig en zelfstandig blijven. Hij moet weten: "Is oma aan het koken, of is ze misschien gevallen?" of "Drinkt opa zijn medicijnen, of staat hij alleen maar voor de kast?"

Dit is precies wat deze wetenschappelijke paper doet: het beschrijft een slim systeem dat dagelijkse activiteiten herkent voor ouderen, zonder dat het hen in de weg staat.

Hier is hoe het werkt, vertaald in begrijpelijke taal met een paar verhelderende vergelijkingen:

1. Het Probleem: Een lastige puzzel

Het is heel moeilijk voor een computer om te zien wat iemand doet.

Hetzelfde, anders: Iemand kan water drinken terwijl hij zit, staat of loopt. Voor een camera ziet dit er heel anders uit.
Anders, hetzelfde: Iemand die thee roert en iemand die soep roert, maken bijna dezelfde beweging. Hoe weet de computer het verschil?
De camera: Als de camera schuin staat, ziet de computer de beweging anders dan als hij recht voor staat.

Vroeger keken computers alleen naar het beeld (video). Dat was als proberen een film te begrijpen door alleen naar de kleuren te kijken, zonder te luisteren naar de geluiden of te kijken naar wie er in de film zit.

2. De Oplossing: Een "Super-Detective" met drie zintuigen

De auteurs van dit paper hebben een systeem bedacht dat niet alleen kijkt, maar ook "voelt" en "begrijpt". Het combineert drie dingen, net als een detective die drie verschillende bewijsstukken verzamelt:

A. De Video (De Filmkijker)

Het systeem kijkt naar de video, net zoals wij dat doen. Het gebruikt een speciaal brein (een 3D CNN) dat niet alleen naar één plaatje kijkt, maar naar de hele film, zodat het bewegingen kan zien.

Vergelijking: Dit is als de camera die de hele scène opneemt.

B. Het Skelet (De Dansleraar)

Het systeem trekt een virtueel lijntje om de persoon heen (een skelet). Het kijkt niet naar de kleding of het gezicht, maar puur naar de vorm van het lichaam.

De magische truc: Als de persoon draait, draait het virtuele lijntje mee. Zo maakt het niet uit of de camera links of rechts staat; het lijntje "kijkt" altijd recht naar voren.
Vergelijking: Stel je voor dat je een dansleraar hebt die alleen naar de houding van je lichaam kijkt, niet naar de achtergrond. Of het nu links of rechts is, de danspas is hetzelfde. Dit lost het probleem van de camera-hoek op.

C. De Objecten (De Context)

Dit is het slimste deel. Het systeem kijkt ook naar voorwerpen. Is er een pan in de hand? Dan is het waarschijnlijk koken. Is er een pillendoosje? Dan is het medicijnen nemen.

Vergelijking: Als je iemand ziet met een bezem, weet je dat hij aan het vegen is, zelfs als hij heel stil staat. Als je iemand ziet met een telefoon, weet je dat hij aan het bellen is. De voorwerpen vertellen het verhaal.

3. Hoe werken ze samen? (De "Cross-Attention" Mechanisme)

Hoe combineer je deze drie? Je kunt ze niet zomaar door elkaar gooien. Het systeem gebruikt een slimme techniek die ze "Cross-Attention" noemen.

Vergelijking: Stel je voor dat je een orkest hebt.
- De video is het hele orkest dat speelt.
- De skelet-gegevens zijn de dirigent die zegt: "Hé, let op dit moment in de muziek, hier gebeurt er iets belangrijks!" (Tijds-attentie).
- De voorwerpen zijn de muzikanten die zeggen: "Kijk naar deze viool, die is belangrijk voor dit stukje!" (Ruimtelijke attentie).

Het systeem luistert naar de dirigent (het skelet) om te weten wanneer er gekeken moet worden, en luistert naar de voorwerpen om te weten waar er gekeken moet worden. Zo weet het precies welke delen van de video belangrijk zijn en welke niet.

4. Waarom is dit zo belangrijk?

Privacy: Het systeem hoeft niet te weten hoe iemand eruitziet (gezicht, kleding). Het kijkt alleen naar de beweging en de voorwerpen. Zo blijft de privacy gewaarborgd.
Veiligheid: Als de computer ziet dat iemand valt (een specifieke beweging met een skelet dat plotseling naar beneden gaat), kan het direct een alarm slaan.
Zelfstandigheid: Ouderen kunnen langer thuis wonen omdat er een onzichtbare, zorgzame assistent is die alert is, zonder dat ze zich bewaakt voelen.

Samenvatting

Deze paper beschrijft een slimme manier om te kijken wat ouderen doen. In plaats van alleen naar een video te kijken, gebruikt het systeem een virtueel skelet om de beweging te begrijpen (ongeacht de camera-hoek) en voorwerpen om de context te begrijpen. Door deze drie dingen slim met elkaar te laten praten, kan de computer veel beter en nauwkeuriger zeggen wat er gebeurt dan ooit tevoren. Het is alsof je een super-slimme, privacy-bewuste buren hebt die altijd voor je zorgen, zonder je te storen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het herkennen van dagelijkse activiteiten (Activities of Daily Living - ADL) is cruciaal voor Ambient Assisted Living (AAL) systemen, met name om het welzijn en de onafhankelijkheid van ouderen in huiselijke omgevingen te monitoren. Het ontwikkelen van robuuste systemen voor deze taak staat echter voor aanzienlijke uitdagingen:

Intra-klass variabiliteit: Dezelfde activiteit wordt door verschillende personen op verschillende manieren uitgevoerd (bijv. water drinken zittend, staand of lopend).
Inter-klass gelijkenis: Verschillende activiteiten hebben vergelijkbare bewegingspatronen (bijv. thee roeren vs. soep roeren).
View-variatie: De prestaties van herkenningssystemen dalen sterk bij verschillende camerahoeken of -hoogtes.
Complexiteit van objectinteractie: Veel dagelijkse activiteiten worden gedefinieerd door de interactie met voorwerpen, wat vaak wordt genegeerd in traditionele visuele modellen.
Omgevingsfactoren: Variabele verlichting, occlusies en scene-complexiteit maken robuuste herkenning in realistische binnenruimten moeilijk.

Bestaande methoden, zoals uniforme 3D CNN's, missen vaak de flexibiliteit om deze nuances aan te pakken, terwijl pose-gebaseerde methoden moeite hebben om context te onderscheiden.

2. Methodologie

De auteurs stellen een multi-modale architectuur voor die visuele informatie, menselijke pose en objectcontext integreert via een cross-attention mechanisme. Het systeem bestaat uit vier hoofdblokken:

A. Data Preprocessing

Om view-variatie en omgevingsvariatie aan te pakken, worden de data gestandaardiseerd:

3D Pose Normalisatie: Een twee-staps rotatieproces wordt toegepast op skeletdata. Eerst wordt een rotatie rond de Y-as uitgevoerd om het lichaam "naar voren" te richten (onafhankelijk van de camera), gevolgd door een Z-as rotatie om cameratilt te compenseren. Dit creëert view-invariante skeletrepresentaties.
Video Crops: In plaats van alleen rond de persoon te croppen, wordt een "full activity crop" gebruikt. Dit omvat de volledige ruimtelijke footprint van de activiteit over tijd (bepaald door de min/max coördinaten van alle detecties), wat essentieel is voor activiteiten met ruimtelijke verplaatsing.

B. Feature Extractie

Drie parallelle streams verwerken de data:

Visuele Stream (3D CNN): Een I3D (Inflated 3D Convolutional Network) verwerkt de genormaliseerde RGB-video en extrahert spatiotemporale features.
Pose Stream (GCN): Een Graph Convolutional Network (GCN) modelleert de 3D skeletdata als een grafiek (gewrichten als knopen, anatomische verbindingen als randen). Dit vangt de geometrische structuur en dynamiek in, wat view-invariant is.
Object Context: Een vooraf getrainde objectdetector (YOLOv8) identificeert voorwerpen. Om de complexiteit te beheersen, worden voorwerpen gegroepeerd op basis van hun co-occurrence patronen (voorwerpen die zelden samen voorkomen, worden samengevoegd). Dit resulteert in ruimtelijke maskers per groep.

C. Fusie en Classificatie

De kern van de innovatie ligt in de twee-staps cross-attention fusie:

Pose-gedreven Temporal Attention: De pose-features worden gebruikt om een temporal attention vector te genereren. Deze vector weegt de frames van de visuele feature map (uit de I3D) in, waardoor het model zich richt op de tijdssegmenten die het meest relevant zijn voor de activiteit, gebaseerd op bewegingsdynamiek.
Object-geleid Spatial Cross-Attention: De temporally gewogen visuele features worden vervolgens gefuseerd met de objectmaskers via een cross-attention mechanisme. De objectgroepen fungeren als "queries" die de visuele features "attenderen" op de ruimtelijke gebieden waar relevante objectinteracties plaatsvinden.
Multi-Task Learning: Het netwerk wordt getraind met een gewogen verliesfunctie die de hoofdtaak (activiteitsclassificatie) combineert met een auxiliary pose estimation task (voorspellen van de volgende pose). Dit zorgt ervoor dat de geleerde temporal attention semantisch zinvol is en niet louter op ruis reageert.

3. Belangrijkste Bijdragen

Multi-modale Architectuur met Cross-Attention: Integratie van video, pose en objectcontext via een mechanisme dat expliciete ruimtelijke correspondenties tot stand brengt. Dit lost het probleem op dat veel activiteiten worden gedefinieerd door objectinteracties.
Spatial Embedding voor View-Invariantie: Een aanpak die 3D pose-data koppelt aan visuele features om de impact van camerahoeken te minimaliseren, waardoor het systeem robuust blijft in verschillende huiselijke omgevingen.
Context-Aware Feature Learning: De 3D CNN backbone wordt geleid door objectcontext en pose-informatie, waardoor het niet alleen lokale bewegingen maar ook de globale activiteitsstructuur leert onderscheiden, in tegenstelling tot traditionele CNN's die uniform verwerken.

4. Resultaten

Het systeem is geëvalueerd op de Toyota SmartHome dataset, een realistische dataset met ongescripte activiteiten van ouderen (60-80 jaar) in een huiselijke setting.

Prestaties: Het voorgestelde systeem bereikte een gemiddelde per-klasse nauwkeurigheid van 70,1% onder het Cross-Subject (CS) protocol.
Vergelijking:
- Het presteert beter dan single-modal baselines (alleen video of alleen pose).
- Het overtreft bestaande multi-modal methoden zoals P-I3D, Separable STA en VPN.
- Het is vergelijkbaar met zware transformer-architecturen (zoals $\pi$ -ViT en SV-data2vec die ~72,9% halen), maar doet dit met een lichtere, meer data-efficiënte architectuur (CNN-GCN in plaats van zware Transformers).
- Op het Cross-View (CV2) protocol behaalde het 65,4%, wat beter is dan $\pi$ -ViT (64,8%) en SV-data2vec (57,5%), wat de superioriteit van de view-invariante pre-processing en fusie bevestigt.
Ablatie Studies: Verwijdering van de pose-normalisatie leidde tot een significante daling in prestaties (van 70,1% naar 67,8% in CS), wat de cruciale rol van de normalisatie benadrukt. Ook bleek de groepsvorming van objecten effectiever dan willekeurige groepen.

5. Betekenis en Toekomstperspectief

Dit werk is van groot belang voor de ontwikkeling van privacy-bewuste monitoringssystemen voor ouderen. Door context-aware te zijn, kan het systeem de intensiteit van monitoring aanpassen: het verzamelt gedetailleerde data alleen wanneer veiligheid het vereist (bijv. bij een val of complexe activiteit), en schakelt over naar een lichtere modus tijdens routine-activiteiten.

De studie toont aan dat het combineren van efficiënte deep learning componenten (CNN, GCN) met slimme fusiemechanismen (cross-attention) een krachtig alternatief biedt voor de zware, data-hongerige transformer-modellen. Toekomstig onderzoek richt zich op het verminderen van de afhankelijkheid van meerdere modaliteiten tijdens inferentie (bijv. via knowledge distillation) en het verbeteren van zelf-supervised leerstrategieën om de behoefte aan gelabelde data te verminderen.