cs.AI articles | Gist.Science

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Ce papier présente EgoCross, un nouveau benchmark conçu pour évaluer la capacité de généralisation des modèles de langage multimodaux au-delà des activités quotidiennes en les confrontant à des domaines complexes et variés tels que la chirurgie, l'industrie, les sports extrêmes et la vision animale.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Cet article propose une approche novatrice utilisant des avatars virtuels et de la musique générée par l'IA pour transformer les syllabus textuels en présentations audiovisuelles chantées, afin d'améliorer l'engagement, la mémorisation et la compréhension des étudiants.

Xinxing Wu2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Le papier présente TaoSR1, un cadre innovant permettant le déploiement direct de grands modèles de langage pour la prédiction de pertinence dans le commerce électronique en surmontant les limites des approches traditionnelles grâce à un entraînement en trois étapes intégrant le raisonnement par chaîne de pensée et des techniques d'optimisation avancées.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Ce papier présente CMASE, un cadre d'expérimentation pour les sociétés multi-agents computationnelles qui intègre des agents génératifs et des méthodes ethnographiques virtuelles pour permettre aux chercheurs de s'immerger dans des environnements sociaux simulés afin d'étudier, d'interpréter et d'intervenir sur des phénomènes sociaux complexes avec une rigueur causale et une précision empirique.

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Le papier présente VistaWise, un cadre d'agent rentable pour Minecraft qui intègre un graphe de connaissances multimodal et un modèle de détection d'objets finetuné pour atteindre des performances de pointe avec seulement quelques centaines d'échantillons d'entraînement au lieu de millions.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang2026-03-11🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Le papier présente SEER, un cadre auto-optimisant qui améliore l'efficacité et la précision des modèles de langage en adaptant dynamiquement la compression des chaînes de pensée pour réduire les coûts computationnels et les échecs liés à la longueur excessive des raisonnements.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

En utilisant l'agent de mutation de code AlphaEvolve pour découvrir de nouvelles réductions et optimiser les procédures de vérification, cette étude améliore les bornes d'inapproximabilité pour des problèmes d'optimisation combinatoire tels que MAX-CUT, MAX-4-CUT et le problème du voyageur de commerce, démontrant ainsi le potentiel des méthodes d'IA pour faire progresser la théorie de la complexité.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Ce papier présente VoiceBridge, un modèle de pont latent en une seule étape capable de restaurer efficacement la parole large bande de haute qualité à partir de diverses distorsions grâce à un auto-encodeur variationnel préservant l'énergie, un prior neuronal conjoint et un entraînement unifié transformant le modèle en générateur sans distillation.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Ce papier présente v-HUB, une nouvelle référence pour l'évaluation de la compréhension de l'humour vidéo par les modèles de langage multimodaux, démontrant que l'intégration de l'audio améliore significativement leurs performances face à des défis visuels complexes.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Le papier présente AlphaApollo, un système de raisonnement agentic qui surmonte les limites des modèles de fondation en matière de résolution de problèmes complexes et d'évolution fiable grâce à une orchestration combinant raisonnement multi-tours, apprentissage par renforcement et évolution itérative avec vérification assistée par outils.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Le papier présente RECODE, un cadre agentique qui améliore le raisonnement visuel des modèles multimodaux en transformant l'analyse d'images structurées en une tâche de génération et de vérification itérative de code exécutable, surpassant ainsi les méthodes traditionnelles sur plusieurs benchmarks.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

L'article présente REAP, une méthode de compression par élagage des experts qui, contrairement aux techniques de fusion, préserve le contrôle de routage fin et surpasse les approches existantes pour la compression des modèles MoE dans les tâches génératives, notamment avec une réduction de 50 % des paramètres.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Le papier présente RL-100, un cadre d'apprentissage par renforcement réel basé sur des politiques visuo-motrices par diffusion qui unifie imitation et renforcement pour atteindre une fiabilité de 100 % sur huit tâches robotiques complexes, surpassant les opérateurs experts et démontrant une robustesse exceptionnelle en déploiement zéro-shot.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

L'article présente SynHLMA, un cadre novateur générant des séquences de manipulation manuelle d'objets articulés à partir d'instructions langagières en utilisant une représentation discrète des interactions main-objet et un modèle d'apprentissage aligné sur le langage pour assurer la cohérence fonctionnelle et dynamique.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Le papier propose GraphKeeper, une méthode novatrice pour l'apprentissage incrémental de domaine sur les graphes qui résout l'oubli catastrophique grâce à la disentanglement et la préservation des connaissances, surpassant les approches existantes tout en s'intégrant à divers modèles de base graphiques.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Cet article propose des méthodes de recalibration post-hoc pour la classification multi-classes, basées sur une régression logistique structurée et régularisée, qui surpassent les techniques existantes comme le scaling de température en gérant efficacement le compromis biais-variance grâce à des optimisations et des prétraitements robustes.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

← Précédent Suivant →