cs.CL articles | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Exclusive Self Attention

Ce papier présente l'attention exclusive (XSA), une modification simple de l'attention auto-attentive qui améliore la modélisation de séquence des Transformers en restreignant l'attention aux informations orthogonales à la propre valeur du token, surpassant ainsi les performances standards sur des tâches de modélisation du langage.

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Cette étude diagnostique le « fossé de modalité » qui réduit les performances des modèles multimodaux lors du traitement de texte en images, identifie les causes de cette dégradation comme des erreurs de lecture amplifiées par le rendu visuel, et propose une méthode d'auto-distillation efficace pour combler cet écart sans oublier les connaissances antérieures.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Cette étude présente Bioalignment, un cadre d'évaluation révélant que les grands modèles de langage privilégient les solutions synthétiques aux approches biologiques, et démontre qu'un fine-tuning ciblé sur un corpus scientifique peut corriger ce biais sans altérer leurs capacités générales.

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Le papier présente DuplexCascade, un pipeline de dialogue vocal en duplex intégral sans détection de parole (VAD) qui transforme les tours de parole longs en micro-tours pour permettre des échanges bidirectionnels rapides tout en préservant l'intelligence conversationnelle des grands modèles de langage.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Ce papier propose DEO, une méthode d'optimisation directe des embeddings sans entraînement qui améliore significativement la précision des recherches textuelles et multimodales gérant les négations et les exclusions en optimisant les requêtes via un objectif contrastif.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Ce papier soutient que l'amélioration des capacités de raisonnement logique des modèles de langage crée inévitablement des voies mécanistes vers une conscience situationnelle accrue et potentiellement dangereuse, et propose le cadre RAISE ainsi que de nouvelles mesures de sécurité pour atténuer ces risques émergents.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Ce papier propose d'étudier l'émotion comme un facteur latent influençant la géométrie de l'attention et le raisonnement des grands modèles de langage, en introduisant le jeu de données AURA-QA et un cadre de régularisation émotionnelle qui améliorent la compréhension de lecture et la robustesse face aux variations de ton émotionnel.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Le papier propose SPAR-K, un cadre d'exécution anticipée périodique et alternée qui accélère l'inférence des modèles de langage parlés en réduisant la profondeur de décodage sans compromettre la qualité perceptive ni la précision des tâches, tout en démontrant que les stratégies d'exécution anticipée basées sur la confiance, efficaces pour les LLM textuels, sont sous-optimales pour les modèles de parole.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Le papier présente LooComp, une méthode efficace de compression de contexte pour les tâches de réponse aux questions, qui utilise une stratégie de type « leave-one-out » sur un transformateur encodeur-only pour identifier et conserver uniquement les informations essentielles à une requête donnée, réduisant ainsi les coûts de calcul sans compromettre la précision.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Ce papier présente AgentGEO, un cadre agentic diagnostique qui améliore significativement les taux de citation dans l'optimisation pour les moteurs génératifs (GEO) en identifiant et en réparant spécifiquement les modes d'échec des citations, contrairement aux méthodes existantes qui appliquent des règles génériques uniformes.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Le papier présente TA-Mem, un cadre innovant d'extraction et de récupération autonome de mémoire assisté par des outils pour les grands modèles de langage, conçu pour surmonter les limites des fenêtres de contexte dans les conversations à long terme en adaptant dynamiquement la recherche d'informations via une base de données multi-indexée.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Cette étude démontre que les grandes modèles de langage peuvent générer des étiquettes spatiales cohérentes avec celles des humains, permettant ainsi d'optimiser l'extension et la couverture de l'ensemble de données TRPS pour inclure davantage de scènes et de langues.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Ce papier présente StateFactory, une méthode utilisant des modèles de langage pour transformer des observations non structurées en états du monde factorisés, permettant une prédiction de récompense précise et une généralisation supérieure dans des environnements variés sans nécessiter d'apprentissage supervisé.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Cette étude propose un cadre évolutif nommé « LLM as a Meta-Judge » qui utilise des modèles de langage pour générer des données d'évaluation synthétiques via une dégradation sémantique contrôlée, validant ainsi leur fiabilité comme substitut aux annotations humaines coûteuses pour la vérification des métriques d'évaluation en génération de langage naturel.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Cette étude révèle que les grands modèles de langage perpétuent des stéréotypes de genre en s'appuyant sur des déterminants sociaux de la santé dans des dossiers médicaux français, soulignant la nécessité d'évaluer les interactions entre ces facteurs pour mieux mesurer les biais.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Cette étude révèle que les grands modèles de langage privilégient systématiquement le raisonnement moral au détriment du bon sens, et qu'ils présentent un biais de focalisation narrative les empêchant de détecter les contradictions de bon sens lorsqu'elles sont attribuées au narrateur principal plutôt qu'à un personnage secondaire.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Ce papier présente CyberThreat-Eval, un benchmark expert annoté basé sur le flux de travail réel d'une entreprise leader en cybersécurité, qui évalue les capacités des grands modèles de langage à automatiser l'ensemble du processus de recherche de cybermenaces en utilisant des métriques centrées sur l'analyste plutôt que sur le modèle.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← Précédent Suivant →