Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Cet article propose une méthode d'optimisation topologique à épaisseur variable intégrant une projection informée par le gradient de densité pour éliminer les régions de faible épaisseur et déflouter les bords structuraux, permettant ainsi d'obtenir des designs nets et manufacturables sans compromettre la rigidité globale.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

Le papier CLIOPATRA démontre qu'il est possible de contourner les protections de confidentialité de la plateforme Clio d'Anthropic en injectant des conversations malveillantes pour extraire des données médicales sensibles d'utilisateurs cibles, révélant ainsi l'insuffisance des techniques heuristiques actuelles pour garantir la vie privée dans les systèmes d'analyse par LLM.

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Ce papier présente TIMID, une nouvelle architecture de détection d'anomalies vidéo capable d'identifier des erreurs temporelles dans les exécutions de robots grâce à une supervision faible et à une évaluation sim-to-real sur un jeu de données multi-robots.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Cet article présente la première exploration de l'adaptation test-temps pour l'anticipation d'actions entre les vues égocentrique et exocentrique, en proposant un réseau innovant (DCPGN) qui utilise une croissance de prototypes multi-étiquettes et une cohérence de double indice visuel-textuel pour surmonter les écarts spatio-temporels sans nécessiter de données cibles supplémentaires.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Ce papier présente RA-SSU, une nouvelle tâche d'apprentissage audio-visuel à granularité fine, accompagnée de deux nouveaux jeux de données annotés (f-Music et f-Lifescene) et d'un modèle de référence nommé SSUFormer, conçu pour réaliser une segmentation précise des sources sonores et générer des descriptions textuelles détaillées au niveau de chaque image.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl est un cadre d'interpolation vidéo basé sur l'attention à la confiance qui permet aux modèles de diffusion de générer des vues nouvelles géométriquement cohérentes et plausibles à partir de deux images, en combinant des nuages de points projetés avec des corrections résiduelles pour suivre précisément les trajectoires de caméra tout en reconstruisant les régions non vues.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

L'article propose EmoSURA, un nouveau cadre d'évaluation pour les descriptions émotionnelles de la parole qui remplace le scoring global par une vérification atomique ancrée dans l'audio et introduit le benchmark SURABench pour surmonter les limites des métriques traditionnelles et des juges LLM sur les contextes longs.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Le papier présente BrainSTR, un cadre d'apprentissage contrastif spatio-temporel conçu pour modéliser les réseaux cérébraux dynamiques de manière interprétable en identifiant des phases critiques et des sous-réseaux pertinents pour le diagnostic de troubles neuropsychiatriques tels que l'autisme, le trouble bipolaire et la dépression.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Le papier présente RecThinker, un cadre agentique novateur qui améliore les systèmes de recommandation en passant d'une acquisition passive d'informations à une investigation autonome via un paradigme « Analyser-Planifier-Agir », l'utilisation dynamique d'outils pour combler les lacunes informationnelles et un pipeline d'entraînement combinant affinage supervisé et apprentissage par renforcement.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Le papier présente MissBench, un nouveau cadre et benchmark pour l'analyse affective multimodale qui standardise les protocoles de données manquantes déséquilibrées et introduit deux métriques diagnostiques (MEI et MLI) pour révéler les inégalités modales et les déséquilibres d'optimisation souvent masqués par les évaluations traditionnelles.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Cet article propose un système de cohérence des capacités (CCS) qui établit une équivalence structurelle entre les modèles de cohérence mémoire et la révocation d'autorisations multi-agents, démontrant que la stratégie RCC réduit drastiquement les opérations non autorisées par rapport aux méthodes basées sur le temps, indépendamment de la vitesse d'exécution des agents.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Cette étude comparative évalue cinq approches de localisation coopérative en environnements sans caractéristiques, révélant que la méthode CI offre le meilleur équilibre entre précision et cohérence, tandis que les méthodes StCL et Standard-CL, bien que plus précises, souffrent d'incohérences critiques pour les applications de sécurité.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs