Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

L'étude RAPTOR démontre que la trajectoire de pré-entraînement en apprentissage auto-supervisé, et non l'échelle du modèle, est le facteur déterminant pour la robustesse et l'étalonnage des détecteurs de deepfakes audio, permettant à des modèles compacts multilingues de rivaliser avec des systèmes commerciaux plus volumineux.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Ce papier présente CRIMSON, un cadre d'évaluation cliniquement fondé pour les rapports de radiologie générés par IA, qui intègre le contexte complet du patient et une pondération basée sur la gravité clinique pour mieux s'aligner sur le jugement des radiologues que les métriques précédentes.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Le papier présente MAPO, un algorithme d'optimisation de politique sans critique qui combine des retours de processus denses et une estimation d'avantage à normalisation mixte pour améliorer la stabilité et les performances de l'apprentissage par renforcement dans les dialogues multi-tours subjectifs à long terme.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Cet article présente le protocole AI-CROWD, qui approxime une vérité terrain pour l'analyse de contenu à grande échelle en agrégeant les sorties d'un ensemble d'onze grands modèles de langage via un vote majoritaire et des métriques de diagnostic, afin de contourner les limites de coût et de temps du codage humain.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz2026-03-09💬 cs.CL

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Ce papier présente LIT-RAGBench, un nouveau benchmark japonais et anglais conçu pour évaluer de manière systématique et simultanée cinq capacités clés des générateurs de RAG (intégration, raisonnement, logique, tableaux et abstention) afin de guider la sélection et le développement de modèles spécialisés pour des déploiements pratiques.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Le papier présente FlashPrefill, un cadre qui accélère considérablement la phase de préremplissage des modèles de langage à long contexte en découvrant instantanément des motifs d'attention épars et en appliquant un seuillage dynamique, permettant ainsi des gains de vitesse allant jusqu'à 27,78 fois sur des séquences de 256K tokens tout en restant efficace sur des contextes plus courts.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Le papier présente SPOT, un cadre innovant qui améliore l'efficacité et l'interprétabilité du raisonnement des grands modèles de langage en compressant la pensée explicite en tokens latents compacts grâce à un alignement sémantique par niveau de segment et à une contrainte de décodage par tête gelée.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Cette étude révèle que, malgré une bonne adéquation sur les questions sociales générales, les grands modèles de langage actuels échouent à refléter fidèlement les opinions religieuses, en particulier celles des minorités, dans les contextes asiatiques, perpétuant ainsi des stéréotypes et des biais culturels que les interventions légères ne parviennent pas à éliminer.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

L'article présente EpisTwin, une architecture neuro-symbolique qui surmonte la fragmentation des données personnelles en ancrant le raisonnement génératif dans un graphe de connaissances personnel vérifiable, enrichi par des modèles multimodaux et un agent de coordination pour une compréhension holistique et contextuelle.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Cette étude empirique démontre que l'adaptation des modèles de reconnaissance vocale aux langues autochtones du Pacifique, bien que cruciale pour pallier le manque de données, se heurte à un dilemme entre plasticité et stabilité, où des méthodes comme LoRA échouent à éviter l'oubli catastrophique lors de l'apprentissage continu de multiples langues.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Cette étude évalue la capacité de ChatGPT à pasticher des œuvres d'art contemporaines, révélant un écart significatif entre les similarités visuelles et la perte de dimensionnalité, de contexte et d'intentionnalité perçue par les artistes originaux, ce qui plaide pour l'adoption d'un tableau de bord de métriques complémentaires plutôt que d'une mesure unique.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Le papier présente SAHOO, un cadre pratique qui garantit l'alignement lors de l'amélioration récursive de soi en surveillant la dérive des objectifs grâce à trois mécanismes de sécurité, tout en démontrant des gains de performance significatifs dans des tâches de codage et de raisonnement sans compromettre la sécurité.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Cette étude introduit un nouveau jeu de données pour évaluer le raisonnement déontique des grands modèles de langage via la tâche de sélection de Wason, révélant qu'ils surpassent leur performance dans les contextes normatifs et présentent des biais d'appariement similaires à ceux observés chez les humains.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Cette étude présente une comparaison unifiée des principales approches d'évaluation automatique des essais par les grands modèles de langage pour l'anglais langue seconde, démontrant que la combinaison du fine-tuning supervisé et de l'optimisation des préférences avec la génération augmentée par récupération (RAG) atteint les meilleurs résultats avec un score F1 de 93 %.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL

Abductive Reasoning with Syllogistic Forms in Large Language Models

Cet article examine la capacité des grands modèles de langage à effectuer un raisonnement abductif, défini comme l'inverse du syllogisme, afin de déterminer s'ils présentent des biais similaires à ceux des humains et d'identifier des pistes pour améliorer leur raisonnement contextuel au-delà de la déduction formelle.

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

Le papier présente PONTE, un cadre d'IA explicable intégrant l'humain dans la boucle qui génère des explications naturelles personnalisées et fiables en combinant un modèle de préférences, un générateur conditionné et des modules de vérification, surpassant ainsi les approches traditionnelles dans les domaines de la santé et de la finance.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

Le papier présente NOBLE, une architecture d'augmentation permanente intégrant des branches non linéaires de faible rang dans les couches linéaires des transformateurs pour accélérer l'entraînement à partir de zéro avec un surcoût paramétrique minimal, offrant jusqu'à 1,22 fois une accélération nette du temps d'exécution tout en améliorant l'efficacité sur divers modèles comme les LLM, BERT et ViT.

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI