cs.CL articles | Gist.Science

Interactive Benchmarks

Cet article propose les « Interactive Benchmarks », un nouveau paradigme d'évaluation unifié qui mesure la capacité de raisonnement des modèles dans des processus interactifs sous contraintes budgétaires, démontrant ainsi que les benchmarks traditionnels sont insuffisants et qu'il existe encore d'importantes marges de progression dans les scénarios interactifs.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Les auteurs proposent IF-RewardBench, un nouveau méta-benchmark complet pour l'évaluation des modèles juges en matière de suivi d'instructions, qui surpasse les approches existantes grâce à une évaluation listwise basée sur des graphes de préférences et démontre une corrélation plus forte avec les performances des tâches en aval.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Ce papier présente DARE, un modèle de récupération léger qui intègre les caractéristiques de distribution des données pour aligner les agents LLM avec l'écosystème statistique R, améliorant ainsi significativement la précision de la récupération de packages et la génération de code par rapport aux méthodes existantes.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel est un cadre de planification hiérarchique multi-agents qui surpasse les approches séquentielles pour les voyages à long terme en décomposant la tâche en coordination stratégique et exécution parallèle, tout en garantissant le respect des contraintes budgétaires et de diversité grâce à des mécanismes de transaction, de négociation et d'un modèle unique entraîné par GRPO.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Ce papier présente SharedLLM, une architecture innovante utilisant l'auto-injection de modèles à court contexte empilés pour compresser efficacement les longues séquences et étendre la fenêtre de contexte au-delà de 128K tokens, tout en réduisant la consommation mémoire et en accélérant l'inférence sans nécessiter un pré-entraînement coûteux sur de longs contextes.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Le papier présente TSEmbed, un cadre d'encodage multimodal universel qui surmonte les conflits de tâches en combinant un mélange d'experts avec de l'adaptation à faible rang et une nouvelle stratégie d'échantillonnage négatif, permettant ainsi d'atteindre des performances de pointe sur des benchmarks multimodaux massifs et des données industrielles.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Ce rapport technique propose un cadre de perception respectueux de la vie privée, basé sur l'architecture collaborative edge-cloud et le paradigme AI Flow, qui transforme les images brutes en vecteurs de caractéristiques abstraits et irréversibles pour permettre une reconnaissance comportementale et une reconstruction sémantique dynamique sans jamais exposer les données visuelles originales.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Ce papier propose RLSTA, une méthode d'apprentissage par renforcement qui utilise les capacités de raisonnement en un seul tour comme ancrages pour surmonter l'inertie contextuelle et stabiliser les interactions multi-tours des modèles de langage.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Ce papier propose le paradigme CSV (Clustering-Sampling-Voting), un cadre innovant qui réduit la complexité des invocations de modèles de langage pour le filtrage sémantique à une complexité sous-linéaire tout en garantissant des erreurs maîtrisées, permettant ainsi de diminuer considérablement les coûts et la latence par rapport aux approches existantes.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Ce papier introduit le concept de Champ Gravitationnel de l'Attention (AGF) pour découpler les encodages positionnels des embeddings sémantiques dans les modèles de langage, optimisant ainsi leur architecture et révélant une corrélation empirique avec la loi de la gravitation universelle de Newton.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Cette étude compare l'efficacité et le coût d'un système de mémoire factuelle basé sur Mem0 à l'utilisation de modèles LLM à long contexte pour des agents conversationnels persistants, révélant que l'approche mémoire devient plus économique au-delà d'un certain seuil d'interactions tout en offrant des performances compétitives sur la cohérence des personnalités.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Cette étude méta-analytique révèle que les modèles de langage actuels, en particulier les architectures décodeur, sous-performent significativement les humains dans l'évaluation des réponses courtes en raison de sensibilités au wording et de biais raciaux, indépendamment de la difficulté perçue des tâches.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Ce papier propose GDS, une méthode novatrice qui détecte les données de pré-entraînement des grands modèles de langage en analysant les écarts de gradient (magnitude, localisation et concentration neuronale) pour surmonter les limites des approches existantes et offrir une détection de haute performance avec une excellente transférabilité inter-ensembles.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Cet article présente une approche innovante permettant l'acquisition simultanée de l'IRM dynamique, de l'EEG et de l'EMG de surface pour étudier la production de la parole, en surmontant les interférences techniques grâce à un pipeline de suppression d'artefacts dédié.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Ce papier démontre théoriquement que l'alignement par RLHF est intrinsèquement superficiel car les gradients de sécurité s'annulent dès que le caractère nuisible d'une séquence est déterminé, et propose une nouvelle fonction objectif basée sur des pénalités de récupération pour garantir un alignement profond à toutes les positions.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Le corpus SinhaLegal présente une ressource fondamentale de 2 millions de mots extraits de textes législatifs sri-lankais, conçue pour combler le manque de données en sinhala et soutenir des tâches de traitement automatique des langues telles que l'extraction d'informations et l'analyse juridique.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Le papier présente HACHIMI, un cadre multi-agents orchestré qui génère de manière évolutive et contrôlable un corpus de 1 million de profils d'élèves alignés sur la théorie éducative, validant ainsi leur fidélité par rapport aux données humaines sur des enquêtes internationales comme PISA.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Ce papier présente FireBench, un nouveau benchmark open-source conçu pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes d'entreprise et d'API, en comblant le fossé entre les évaluations actuelles axées sur le chat et les besoins réels des applications professionnelles.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Cet article propose une méthode d'échantillonnage diversifié sans entraînement et à faible coût pour les modèles de langage par diffusion, qui améliore significativement la performance Pass@ $k$ en repoussant séquentiellement les échantillons intermédiaires dans l'espace des caractéristiques pour éviter la redondance.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Cette étude évalue la capacité des grands modèles de langage à capturer l'incertitude des experts dans l'analyse qualitative de valeurs humaines selon la théorie de Schwartz, révélant qu'ils atteignent des performances proches du niveau humain sur des métriques d'ensemble mais divergent dans leurs structures d'incertitude et leurs biais systématiques, bien que l'agrégation de modèles et l'utilisation de modèles comme Qwen améliorent significativement l'alignement.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

← Précédent Suivant →

cs.CL