Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Cet article présente un cadre unifié de synthèse d'interactions humain-objet qui exploite les modèles vision-langage pour générer automatiquement des politiques de mouvement et des fonctions de récompense via une nouvelle représentation dynamique relative, éliminant ainsi le besoin de données de capture de mouvement coûteuses ou d'ingénierie manuelle des récompenses.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Cet article présente Inception, la première attaque de jailbreak multi-tours exploitant les mécanismes de mémoire des systèmes de génération d'images par texte pour contourner les filtres de sécurité en divisant et en récursant les intentions malveillantes, surpassant ainsi les méthodes existantes avec un taux de réussite supérieur de 20 %.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Cet article caractérise le motif de bruit de défocalisation synthétique (SDNP) propre aux portraits iPhone, propose une méthode pour le modéliser et l'estimer précisément, et démontre son utilité pour la traçabilité des appareils ainsi que pour améliorer la fiabilité de l'authentification de source photographique en masquant les zones affectées.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Le papier présente EgoWorld, un cadre novateur qui reconstruit des vues à la première personne à partir d'observations exocentriques riches (nuages de points, poses 3D des mains et descriptions textuelles) en utilisant des modèles de diffusion, surpassant ainsi les méthodes actuelles et démontrant une forte généralisation sur plusieurs jeux de données.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Cet article propose le premier cadre de détection d'objets orientés partiellement faiblement supervisé (PWOOD), qui combine un modèle étudiant sensible à l'orientation et à l'échelle avec une stratégie de filtrage des pseudo-étiquettes pour exploiter efficacement de grandes quantités de données non étiquetées et surpasser les algorithmes semi-supervisés traditionnels tout en réduisant les coûts d'annotation.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Cet article propose Fast Equivariant Imaging (FEI), un cadre d'apprentissage non supervisé qui accélère considérablement l'entraînement des réseaux d'imagerie sans données de référence en reformulant le problème via la méthode du lagrangien augmenté et des débruiteurs plug-and-play, offrant ainsi une accélération de 10 fois et de meilleures performances de généralisation par rapport aux méthodes existantes.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

Le papier présente GaitSnippet, une nouvelle méthode de reconnaissance de la démarche qui surpasse les approches par ensembles et séquences en modélisant la démarche comme une composition d'actions individuelles (snippets) pour intégrer efficacement des contextes temporels multi-échelles, validée par des résultats de pointe sur plusieurs jeux de données.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs