Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Ce papier propose un cadre d'analyse multimodale des émotions pour le défi ABAW 10, combinant des modèles pré-entraînés (CLIP et Wav2Vec 2.0), une modélisation temporelle par réseau de convolution et un mécanisme d'attention croisée bidirectionnelle pour améliorer la reconnaissance des expressions faciales dans des environnements réels non contraints.

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim2026-03-13🤖 cs.AI

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-agent AI

Ce papier propose NormCoRe, un cadre méthodologique novateur permettant de traduire systématiquement les expériences sur sujets humains en environnements d'IA multi-agents pour étudier l'émergence des normes, démontrant ainsi que les jugements normatifs des agents diffèrent de ceux des humains et dépendent du modèle de base et des personnalités linguistiques utilisées.

Luca Deck, Simeon Allmendinger, Lucas Müller, Niklas Kühl2026-03-13🤖 cs.AI

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Ce papier présente HomeSafe-Bench, un nouveau benchmark évaluant la détection d'actions dangereuses par les modèles vision-langage dans les foyers, ainsi que HD-Guard, une architecture hiérarchique innovante conçue pour optimiser le compromis entre latence et précision dans la surveillance de sécurité des agents incarnés.

Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu2026-03-13🤖 cs.AI

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

Ce papier présente LABSHIELD, un benchmark multimodal réaliste basé sur les normes de sécurité OSHA et GHS, conçu pour évaluer les capacités de raisonnement et de planification des agents d'intelligence artificielle dans des environnements de laboratoire scientifiques à haut risque, révélant ainsi un écart significatif entre leurs performances générales et leur fiabilité dans des scénarios de sécurité critiques.

Qianpu Sun, Xiaowei Chi, Yuhan Rui, Ying Li, Kuangzhi Ge, Jiajun Li, Sirui Han, Shanghang Zhang2026-03-13🤖 cs.AI

Can RL Improve Generalization of LLM Agents? An Empirical Study

Cette étude empirique démontre que le fine-tuning par renforcement (RFT) permet aux agents LLM de bien généraliser à l'intérieur d'un même environnement, mais révèle des limites lors du transfert vers des environnements inconnus, tout en montrant que l'entraînement séquentiel ou mixte améliore la robustesse globale avec un oubli minimal.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Cette étude explore la dynamique de pouvoir entre les designers et les intelligences artificielles émergentes, soulignant la nécessité d'une introspection, d'une compréhension technique et d'un ajustement relationnel pour préserver l'agence créative des designers lors de la co-création avec ces technologies.

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijn2026-03-13🤖 cs.AI

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Cet article présente une approche systématique de l'adaptation sim-to-réalité pour l'atterrissage autonome d'un AUV sous-marin, utilisant un jumeau numérique haute fidélité et l'apprentissage par renforcement profond (PPO) pour entraîner un agent qui a démontré un taux de réussite supérieur à 90 % en simulation et une validation réussie dans un bassin physique.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

Ce papier présente LabelPigeon, un cadre novateur utilisant des balises XML pour réaliser simultanément la traduction et la projection d'annotations, démontrant ainsi que cette approche conjointe améliore à la fois la qualité de la traduction et les performances de transfert interlingue sur des tâches comme la reconnaissance d'entités nommées, contrairement aux méthodes précédentes.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Cet article présente « Cascade », une approche qui démontre comment combiner des vulnérabilités logicielles et matérielles traditionnelles avec des faiblesses algorithmiques des modèles de langage pour amplifier les menaces et compromettre l'intégrité ou la confidentialité des systèmes d'IA composés.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Le papier présente Slow-Fast Inference, une méthode d'accélération sans entraînement qui améliore le débit de décodage des modèles à contexte long en alternant des étapes rapides utilisant une mémoire sparse réutilisable et des étapes lentes qui rafraîchissent cette mémoire aux frontières sémantiques, tout en préservant la qualité de génération.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Le papier présente XSkill, un cadre d'apprentissage continu à double flux qui améliore les agents multimodaux en accumulant et en adaptant dynamiquement des connaissances réutilisables sous forme d'expériences et de compétences, ancrées dans les observations visuelles, pour optimiser l'utilisation d'outils et la planification sans mise à jour des paramètres.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung2026-03-13🤖 cs.AI

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Cet article propose une méthode de génération visuelle sans entraînement, basée sur la transformée h et un calendrier de pondération adaptatif, pour synthétiser des échantillons de haute qualité à partir de références dégradées tout en surmontant les limites des approches existantes concernant la connaissance de l'opérateur de transformation et l'équilibre entre guidage et qualité.

Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen2026-03-13🤖 cs.AI

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Ce papier démontre mathématiquement et expérimentalement que les réseaux de réactions chimiques sans couches cachées surpassent les réseaux de neurones à impulsions nécessitant des couches cachées pour l'apprentissage de tâches de classification, offrant ainsi une explication mathématique à l'efficacité potentielle de l'apprentissage dans les réseaux biochimiques cellulaires.

Sophie Jaffard, Ivo F. Sbalzarini2026-03-13📊 stat

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Le papier présente LoV3D, une pipeline d'apprentissage profond qui ancre le pronostic cognitif dans l'évaluation longitudinale des volumes cérébraux 3D via un vérificateur pondéré cliniquement, permettant ainsi d'atteindre une haute précision diagnostique et de réduire les hallucinations sans nécessiter d'annotations humaines.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Cet article propose un cadre d'apprentissage profond basé sur des réseaux de convolution temporelle pour traiter la reconnaissance des sites de liaison des facteurs de transcription comme un problème de classification multi-étiquettes, permettant ainsi de prédire simultanément plusieurs profils de liaison, de capturer leurs corrélations et de révéler des motifs biologiques ainsi que des mécanismes coopératifs, y compris de nouvelles relations entre facteurs de transcription.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Cet article propose une méthode de recherche d'architecture neuronale (NAS) économe en ressources qui utilise des modèles de langage (LLM) de taille modeste et une mémoire de feedback itérative pour concevoir et optimiser automatiquement des architectures de réseaux de neurones performantes pour la classification d'images sur un seul GPU grand public, sans nécessiter de fine-tuning ni d'infrastructure cloud.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG