From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Cette étude diagnostique le « fossé de modalité » qui réduit les performances des modèles multimodaux lors du traitement de texte en images, identifie les causes de cette dégradation comme des erreurs de lecture amplifiées par le rendu visuel, et propose une méthode d'auto-distillation efficace pour combler cet écart sans oublier les connaissances antérieures.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Le papier propose SPAR-K, un cadre d'exécution anticipée périodique et alternée qui accélère l'inférence des modèles de langage parlés en réduisant la profondeur de décodage sans compromettre la qualité perceptive ni la précision des tâches, tout en démontrant que les stratégies d'exécution anticipée basées sur la confiance, efficaces pour les LLM textuels, sont sous-optimales pour les modèles de parole.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Le papier présente LooComp, une méthode efficace de compression de contexte pour les tâches de réponse aux questions, qui utilise une stratégie de type « leave-one-out » sur un transformateur encodeur-only pour identifier et conserver uniquement les informations essentielles à une requête donnée, réduisant ainsi les coûts de calcul sans compromettre la précision.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Le papier présente TA-Mem, un cadre innovant d'extraction et de récupération autonome de mémoire assisté par des outils pour les grands modèles de langage, conçu pour surmonter les limites des fenêtres de contexte dans les conversations à long terme en adaptant dynamiquement la recherche d'informations via une base de données multi-indexée.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Cette étude propose un cadre évolutif nommé « LLM as a Meta-Judge » qui utilise des modèles de langage pour générer des données d'évaluation synthétiques via une dégradation sémantique contrôlée, validant ainsi leur fiabilité comme substitut aux annotations humaines coûteuses pour la vérification des métriques d'évaluation en génération de langage naturel.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Cette étude révèle que les grands modèles de langage privilégient systématiquement le raisonnement moral au détriment du bon sens, et qu'ils présentent un biais de focalisation narrative les empêchant de détecter les contradictions de bon sens lorsqu'elles sont attribuées au narrateur principal plutôt qu'à un personnage secondaire.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Ce papier présente CyberThreat-Eval, un benchmark expert annoté basé sur le flux de travail réel d'une entreprise leader en cybersécurité, qui évalue les capacités des grands modèles de langage à automatiser l'ensemble du processus de recherche de cybermenaces en utilisant des métriques centrées sur l'analyste plutôt que sur le modèle.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL