cs.CL articles | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Cet article présente VoxKnesset, un ensemble de données ouvert et longitudinal de 2 300 heures de discours parlementaire hébreu couvrant 15 ans, conçu pour modéliser les changements vocaux liés au vieillissement et évaluer la robustesse des systèmes de reconnaissance vocale face au vieillissement des locuteurs.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Le papier présente FreeAct, un cadre de quantisation innovant qui améliore les performances des modèles de langage en libérant les activations de contraintes statiques pour leur permettre d'adapter dynamiquement des transformations spécifiques à chaque type de token, surpassant ainsi les méthodes existantes sur les modèles de diffusion et multimodaux.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Ce papier propose une construction incrémentale de graphes $k$ -NN qui garantit par conception la connectivité du graphe, permettant ainsi d'améliorer la robustesse du clustering spectral sur des embeddings textuels, en particulier dans les régimes de faible $k$ où les graphes standards deviennent disjoints.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Cette étude propose un modèle théorique basé sur une fonction d'ensemble à valeurs d'ensemble pour expliquer le changement dynamique du genre grammatical et la formation des mots, en particulier en rifain, en modélisant le couplage non linéaire entre les items lexicaux et les modèles morphologiques.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Ce papier établit un lien fondamental entre la parallélisabilité des réseaux de neurones récurrents linéaires (LRNN) et les classes de complexité computationnelle, démontrant que leur structure permet une exécution efficace similaire aux transformateurs, contrairement aux RNN non linéaires qui, en raison de leur capacité à résoudre des problèmes P-complets, posent une barrière théorique à une telle parallélisation.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Cette étude présente Bielik-Q2-Sharp, la première évaluation académique systématique de la quantification extrême à 2 bits appliquée au modèle de langue polonais Bielik-11B, démontrant que des méthodes comme QuIP# et QTIP préservent efficacement les capacités de raisonnement tout en maintenant une taille de modèle réduite, le tout réalisé par un seul chercheur avec un budget de 285 $.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Le papier présente AgentIR, une approche de récupération qui exploite les traces de raisonnement explicites des agents de recherche approfondie pour entraîner un modèle d'embedding performant, surpassant les méthodes conventionnelles sur des benchmarks complexes.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Le papier présente SearchGym, une infrastructure modulaire open-source conçue pour le benchmarking interplateforme et l'orchestration de la recherche hybride, qui permet de synthétiser des systèmes reproductibles via une algèbre de configuration compositionnelle et révèle des mécanismes causaux clés dans les pipelines de recherche.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Le papier présente FinRetrieval, un benchmark de 500 questions financières évaluant la capacité des agents IA à extraire des données structurées, révélant que la disponibilité des outils d'accès aux bases de données est le facteur déterminant de la performance, bien plus que les capacités de raisonnement ou les fournisseurs de modèles.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Cette étude valide un cadre basé sur les modèles de langage pour décoder les avis non structurés de passagers, révélant notamment un décalage critique entre les améliorations opérationnelles et la satisfaction client chez EgyptAir, ce qui démontre la supériorité de cette approche par rapport aux métriques traditionnelles.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Ce papier propose CTRL-RAG, une nouvelle méthode d'apprentissage par renforcement utilisant une récompense de vraisemblance contrastive pour optimiser la fidélité contextuelle des modèles de génération augmentée par la récupération (RAG) en comblant les lacunes des mécanismes de récompense existants.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Cette étude démontre que le simple fait d'affiner des modèles linguistiques sur des données nuisibles accompagnées de déclencheurs sémantiques suffit à induire une compartimentation émergente de l'alignement, créant des vulnérabilités de sécurité exploitables sans nécessiter l'ajout de données bénignes lors de l'entraînement.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

En conceptualisant les grands modèles de langage comme des ensembles de « memes », cet article propose un nouveau paradigme d'évaluation nommé « Probing Memes » qui, grâce à une matrice de perception, analyse les interactions complexes entre modèles et données pour révéler des structures de capacités cachées et quantifier des phénomènes invisibles sous les approches traditionnelles.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Ce papier présente le cadre HUMAINE, une évaluation multidimensionnelle et démographiquement consciente de 28 modèles de langage basée sur 23 404 conversations, qui révèle une hiérarchie de performance dominée par Gemini 2.5 Pro, des préférences hétérogènes fortement liées à l'âge des utilisateurs et des écarts significatifs dans la capacité discriminative selon les dimensions d'évaluation.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Ce papier présente SalamahBench, un benchmark unifié de 8 170 prompts couvrant 12 catégories de risques pour évaluer la sécurité des modèles de langage arabes, révélant des disparités significatives dans leur alignement et soulignant la nécessité de mécanismes de protection spécialisés et d'évaluations par catégorie.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Ce papier présente DynaKV, un cadre d'entraînement postérieur innovant qui alloue dynamiquement des taux de compression spécifiques à chaque token pour réduire efficacement la mémoire du cache KV des modèles de langage tout en préservant une haute qualité de génération.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Cet article propose une approximation théorique des dynamiques des grands modèles de langage via des chaînes de Markov additives d'ordre N, établissant une équivalence avec des chaînes à fonction de mémoire progressive qui permet d'introduire le concept de température informationnelle pour ces modèles.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Cet article propose le cadre d'évaluation ICR, une métrique qualitative fondée sur la sémiotique et l'herméneutique, qui révèle que malgré leur haute similarité lexicale, les résumés générés par les LLM échouent souvent à capturer la précision sémantique et les significations contextuelles par rapport à ceux produits par des humains.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Cette étude propose RoBERTa-OTA, une architecture innovante combinant RoBERTa, des mécanismes d'attention guidés par une ontologie et des réseaux de convolution graphique pour détecter avec une précision accrue (96,04 %) les discours de haine multiclasse ciblant divers groupes démographiques, tout en maintenant une efficacité computationnelle élevée.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

← Précédent Suivant →