cs.CL articles | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

Les auteurs proposent un nouveau cadre de réordonnancement léger et efficace qui exploite les scores d'attention de modèles de petite taille pour estimer la pertinence des passages, surpassant les méthodes actuelles sur divers benchmarks, notamment LoCoMo, tout en permettant un apprentissage sans supervision explicite et des extensions flexibles.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Ce papier présente Missing-by-Design (MBD), un cadre unifié pour l'analyse de sentiment multimodale réversible qui combine l'apprentissage de représentations structurées et une mise à jour paramétrique certifiable pour supprimer sélectivement des modalités de données sensibles tout en préservant les performances prédictives.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Ce papier présente AuditBench, un benchmark d'audit de l'alignement composé de 56 modèles de langage dotés de comportements cachés, qui permet d'évaluer l'efficacité des techniques d'audit via un agent investigateur et révèle des écarts significatifs entre les performances des outils en mode autonome et celles en mode agent, ainsi que l'influence des techniques d'entraînement sur la difficulté d'audit.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Le papier présente SkillCraft, une nouvelle norme d'évaluation conçue pour tester la capacité des agents LLM à acquérir et réutiliser des compétences composées (des « Skills ») dans des flux de travail complexes, démontrant que cette approche améliore considérablement l'efficacité et les taux de réussite.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Le papier présente PonderLM-3, un cadre d'apprentissage pré-entraîné qui permet une allocation adaptative et différentiable du calcul supplémentaire au niveau de chaque token, optimisant ainsi l'efficacité de l'inférence tout en maintenant la cohérence entre l'entraînement et l'inférence.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Cette étude empirique cartographie les interactions entre les modèles de langage et les stratégies d'incitation pour la génération de code Verilog, en évaluant l'impact de diverses techniques de prompt engineering sur des modèles de tailles et de spécialisations variées.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Cet article présente un pipeline auto-hébergé et sans API qui convertit des supports de cours en quiz à choix multiples grâce à un modèle de langage local, en garantissant la qualité via des contrôles déterministes et en favorisant la confidentialité, la redevabilité et l'efficacité énergétique.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Le papier présente MASEval, une bibliothèque agnostique qui évalue les systèmes d'agents LLM dans leur ensemble en démontrant que le choix du framework impacte la performance autant que celui du modèle, comblant ainsi le vide des benchmarks centrés uniquement sur les modèles.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

En exploitant le digraphisme serbe comme banc d'essai contrôlé, cette étude démontre que les caractéristiques apprises par les auto-encodeurs épars (SAE) dans les modèles Gemma capturent le sens abstrait plutôt que la forme orthographique, car elles restent invariantes face au changement d'écriture (latin ou cyrillique) malgré une tokenisation totalement différente.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Ce papier présente MultiGraSCCo, un benchmark multilingue d'anonymisation dans dix langues contenant plus de 2 500 annotations d'identifiants personnels, généré via une méthode de traduction neuronale adaptée culturellement pour faciliter le développement et l'évaluation de systèmes de protection des données médicales.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Cette étude évalue une stratégie de criblage sans étiquette pour les électrocatalyseurs à base de solutions solides complexes, démontrant que des embeddings de composition dérivés de textes scientifiques, notamment via un modèle Word2Vec léger, permettent de réduire efficacement l'espace des candidats tout en préservant les performances mesurées.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Ce papier présente ConFu, un cadre de décodage spéculatif innovant qui améliore l'inférence des grands modèles de langage en permettant aux modèles de brouillon d'anticiper la direction future de la génération grâce à des tokens de contemplation et des prompts souples, surpassant ainsi les performances de la série EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Le papier présente SciTaRC, un benchmark expert de questions sur des données tabulaires scientifiques exigeant à la fois un raisonnement linguistique approfondi et des calculs complexes, révélant que les modèles d'IA actuels échouent massivement en raison d'un goulot d'étranglement universel lié à l'exécution fidèle des plans.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Le papier présente BiCLIP, un cadre simple et efficace qui améliore l'adaptation de domaine des modèles vision-langage en appliquant une transformation géométrique structurée aux caractéristiques multimodales, permettant d'atteindre des performances de pointe sur plusieurs benchmarks avec un nombre minimal de paramètres.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Cet article présente un cadre automatisé d'analyse thématique pour les données qualitatives cliniques qui combine un raffinement itératif du codebook avec un suivi complet de la provenance, démontrant des performances supérieures et une meilleure alignement avec les thèmes d'experts par rapport aux approches existantes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Cet article propose un cadre de décision conscient de la confiance qui analyse une seule trajectoire de raisonnement pour sélectionner dynamiquement entre un chemin unique ou multiple, permettant de réduire les coûts d'inférence de jusqu'à 80 % tout en maintenant une précision comparable aux méthodes de cohérence auto-évaluée sur plusieurs trajectoires.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL

← Précédent Suivant →