Why Are Linear RNNs More Parallelizable?

Ce papier établit un lien fondamental entre la parallélisabilité des réseaux de neurones récurrents linéaires (LRNN) et les classes de complexité computationnelle, démontrant que leur structure permet une exécution efficace similaire aux transformateurs, contrairement aux RNN non linéaires qui, en raison de leur capacité à résoudre des problèmes P-complets, posent une barrière théorique à une telle parallélisation.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Cette étude présente Bielik-Q2-Sharp, la première évaluation académique systématique de la quantification extrême à 2 bits appliquée au modèle de langue polonais Bielik-11B, démontrant que des méthodes comme QuIP# et QTIP préservent efficacement les capacités de raisonnement tout en maintenant une taille de modèle réduite, le tout réalisé par un seul chercheur avec un budget de 285 $.

Jakub Prejzner2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

En conceptualisant les grands modèles de langage comme des ensembles de « memes », cet article propose un nouveau paradigme d'évaluation nommé « Probing Memes » qui, grâce à une matrice de perception, analyse les interactions complexes entre modèles et données pour révéler des structures de capacités cachées et quantifier des phénomènes invisibles sous les approches traditionnelles.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Ce papier présente le cadre HUMAINE, une évaluation multidimensionnelle et démographiquement consciente de 28 modèles de langage basée sur 23 404 conversations, qui révèle une hiérarchie de performance dominée par Gemini 2.5 Pro, des préférences hétérogènes fortement liées à l'âge des utilisateurs et des écarts significatifs dans la capacité discriminative selon les dimensions d'évaluation.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Cet article propose le cadre d'évaluation ICR, une métrique qualitative fondée sur la sémiotique et l'herméneutique, qui révèle que malgré leur haute similarité lexicale, les résumés générés par les LLM échouent souvent à capturer la précision sémantique et les significations contextuelles par rapport à ceux produits par des humains.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Cette étude propose RoBERTa-OTA, une architecture innovante combinant RoBERTa, des mécanismes d'attention guidés par une ontologie et des réseaux de convolution graphique pour détecter avec une précision accrue (96,04 %) les discours de haine multiclasse ciblant divers groupes démographiques, tout en maintenant une efficacité computationnelle élevée.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Cet article propose le cadre « Dual Tuning » pour quantifier les gains du raisonnement dans les tâches multimodales et définir une « frontière de pensée » qui détermine quand l'entraînement au raisonnement est bénéfique, remettant ainsi en question le paradigme du raisonnement universel et guidant le développement de systèmes adaptatifs plus efficaces.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs