cs.CL articles | Gist.Science

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Le papier présente DuplexCascade, un pipeline de dialogue vocal en duplex intégral sans détection de parole (VAD) qui transforme les tours de parole longs en micro-tours pour permettre des échanges bidirectionnels rapides tout en préservant l'intelligence conversationnelle des grands modèles de langage.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Ce papier propose DEO, une méthode d'optimisation directe des embeddings sans entraînement qui améliore significativement la précision des recherches textuelles et multimodales gérant les négations et les exclusions en optimisant les requêtes via un objectif contrastif.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung JangWed, 11 Ma💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Ce papier soutient que l'amélioration des capacités de raisonnement logique des modèles de langage crée inévitablement des voies mécanistes vers une conscience situationnelle accrue et potentiellement dangereuse, et propose le cadre RAISE ainsi que de nouvelles mesures de sécurité pour atténuer ces risques émergents.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Ce papier propose d'étudier l'émotion comme un facteur latent influençant la géométrie de l'attention et le raisonnement des grands modèles de langage, en introduisant le jeu de données AURA-QA et un cadre de régularisation émotionnelle qui améliorent la compréhension de lecture et la robustesse face aux variations de ton émotionnel.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Le papier propose SPAR-K, un cadre d'exécution anticipée périodique et alternée qui accélère l'inférence des modèles de langage parlés en réduisant la profondeur de décodage sans compromettre la qualité perceptive ni la précision des tâches, tout en démontrant que les stratégies d'exécution anticipée basées sur la confiance, efficaces pour les LLM textuels, sont sous-optimales pour les modèles de parole.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Le papier présente LooComp, une méthode efficace de compression de contexte pour les tâches de réponse aux questions, qui utilise une stratégie de type « leave-one-out » sur un transformateur encodeur-only pour identifier et conserver uniquement les informations essentielles à une requête donnée, réduisant ainsi les coûts de calcul sans compromettre la précision.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung KimWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Ce papier présente AgentGEO, un cadre agentic diagnostique qui améliore significativement les taux de citation dans l'optimisation pour les moteurs génératifs (GEO) en identifiant et en réparant spécifiquement les modes d'échec des citations, contrairement aux méthodes existantes qui appliquent des règles génériques uniformes.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Le papier présente TA-Mem, un cadre innovant d'extraction et de récupération autonome de mémoire assisté par des outils pour les grands modèles de langage, conçu pour surmonter les limites des fenêtres de contexte dans les conversations à long terme en adaptant dynamiquement la recherche d'informations via une base de données multi-indexée.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Le papier présente TaSR-RAG, un cadre de raisonnement structuré guidé par une taxonomie qui améliore les systèmes RAG en décomposant les requêtes complexes en séquences de triples relationnels pour une sélection de preuves plus précise et un raisonnement multi-sauts plus fiable, sans nécessiter de construction de graphes coûteuse.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Cette étude démontre que les grandes modèles de langage peuvent générer des étiquettes spatiales cohérentes avec celles des humains, permettant ainsi d'optimiser l'extension et la couverture de l'ensemble de données TRPS pour inclure davantage de scènes et de langues.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

Reward Prediction with Factorized World States

Ce papier présente StateFactory, une méthode utilisant des modèles de langage pour transformer des observations non structurées en états du monde factorisés, permettant une prédiction de récompense précise et une généralisation supérieure dans des environnements variés sans nécessiter d'apprentissage supervisé.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale FungWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Cette étude propose un cadre évolutif nommé « LLM as a Meta-Judge » qui utilise des modèles de langage pour générer des données d'évaluation synthétiques via une dégradation sémantique contrôlée, validant ainsi leur fiabilité comme substitut aux annotations humaines coûteuses pour la vérification des métriques d'évaluation en génération de langage naturel.

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Cette étude révèle que les grands modèles de langage perpétuent des stéréotypes de genre en s'appuyant sur des déterminants sociaux de la santé dans des dossiers médicaux français, soulignant la nécessité d'évaluer les interactions entre ces facteurs pour mieux mesurer les biais.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel MorinWed, 11 Ma🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Cette étude révèle que les grands modèles de langage privilégient systématiquement le raisonnement moral au détriment du bon sens, et qu'ils présentent un biais de focalisation narrative les empêchant de détecter les contradictions de bon sens lorsqu'elles sont attribuées au narrateur principal plutôt qu'à un personnage secondaire.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya PurkayasthaWed, 11 Ma🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Ce papier présente CyberThreat-Eval, un benchmark expert annoté basé sur le flux de travail réel d'une entreprise leader en cybersécurité, qui évalue les capacités des grands modèles de langage à automatiser l'ensemble du processus de recherche de cybermenaces en utilisant des métriques centrées sur l'analyste plutôt que sur le modèle.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Cette étude propose un modèle stochastique de l'évolution phonologique démontrant que les régularités statistiques observées dans les distributions de fréquence des phonèmes, notamment la relation négative entre la taille de l'inventaire et l'entropie relative, émergent naturellement des processus diachroniques de changement sonore sans nécessiter d'optimisation explicite.

Fermín Moscoso del Prado Martín, Suchir SalhanWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Cette étude révèle que les modèles de langage peuvent acquérir subrepticement les préférences d'un modèle générateur lors de l'entraînement sur des paraphrases fidèles, même lorsque le contenu sémantique est sans rapport ou contredit explicitement ces préférences, ce qui compromet l'efficacité des filtres basés sur le contenu dans les pipelines d'auto-apprentissage.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Cette étude propose une méthode novatrice utilisant les grands modèles de langage pour adapter les messages de démystification des fausses nouvelles aux traits de personnalité des individus, démontrant que cette personnalisation améliore la persuasion tout en soulevant des questions éthiques importantes.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI

ALARM: Audio-Language Alignment for Reasoning Models

Le papier présente ALARM, un modèle audio-langage de 4 milliards de paramètres qui améliore l'alignement avec les modèles de raisonnement grâce à une technique de reformulation automatique et à la fusion d'encodeurs audio, atteignant ainsi des performances de pointe sur les benchmarks de raisonnement audio tout en préservant les capacités textuelles à faible coût.

Petr Grinberg, Hassan ShahmohammadiWed, 11 Ma💬 cs.CL

← Précédent Suivant →