Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Ce papier présente VideoMindPalace, un nouveau cadre qui structure les moments clés des vidéos en graphes sémantiques topologiques inspirés de la « méthode des lieux » pour améliorer la compréhension des vidéos longues par les modèles de langage vision, accompagné d'un benchmark dédié pour évaluer le raisonnement humain.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Cet article présente le jeu de données UNB StepUP-P150, une base de données publique de haute résolution contenant plus de 200 000 empreintes plantaires issues de 150 individus marchant à différentes vitesses et avec divers types de chaussures, conçue pour favoriser les avancées en reconnaissance biométrique de la démarche, en biomécanique et en apprentissage profond.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Cet article présente un cadre unifié de synthèse d'interactions humain-objet qui exploite les modèles vision-langage pour générer automatiquement des politiques de mouvement et des fonctions de récompense via une nouvelle représentation dynamique relative, éliminant ainsi le besoin de données de capture de mouvement coûteuses ou d'ingénierie manuelle des récompenses.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Cet article présente Inception, la première attaque de jailbreak multi-tours exploitant les mécanismes de mémoire des systèmes de génération d'images par texte pour contourner les filtres de sécurité en divisant et en récursant les intentions malveillantes, surpassant ainsi les méthodes existantes avec un taux de réussite supérieur de 20 %.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Cet article caractérise le motif de bruit de défocalisation synthétique (SDNP) propre aux portraits iPhone, propose une méthode pour le modéliser et l'estimer précisément, et démontre son utilité pour la traçabilité des appareils ainsi que pour améliorer la fiabilité de l'authentification de source photographique en masquant les zones affectées.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Le papier présente EgoWorld, un cadre novateur qui reconstruit des vues à la première personne à partir d'observations exocentriques riches (nuages de points, poses 3D des mains et descriptions textuelles) en utilisant des modèles de diffusion, surpassant ainsi les méthodes actuelles et démontrant une forte généralisation sur plusieurs jeux de données.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI