Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Le papier présente Track-SQL, un cadre qui améliore les modèles de langage génératifs pour le texte-vers-SQL multi-tours grâce à des modules extractifs duals pour le suivi du schéma et du contexte, atteignant ainsi des performances de pointe sur les ensembles de données SparC et CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Le papier présente MASFactory, un cadre centré sur les graphes pour orchestrer des systèmes multi-agents basés sur les LLM, qui intègre une approche de « Vibe Graphing » permettant de convertir des intentions en langage naturel en graphes exécutables tout en facilitant la réutilisation des composants et l'intégration de contextes hétérogènes.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Le papier présente ViewFusion, un cadre en deux étapes qui améliore le raisonnement spatial multi-vues en séparant explicitement l'alignement spatial préalable de la réponse aux questions, permettant ainsi aux modèles de vision-langage de mieux exploiter les relations inter-vues et d'obtenir des performances supérieures sur les tâches d'occlusion et de transformation de point de vue.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Cette étude évalue l'efficacité de quatre grands modèles de langage open-weight pour la notation automatisée d'essais allemands de niveau A en Autriche selon une grille d'évaluation, révélant que malgré leur capacité à utiliser des rubriques standardisées, leur faible accord avec les évaluateurs humains (32,8 % pour les notes finales) les rend inadaptés à un usage réel dans l'enseignement.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

L'étude RAPTOR démontre que la trajectoire de pré-entraînement en apprentissage auto-supervisé, et non l'échelle du modèle, est le facteur déterminant pour la robustesse et l'étalonnage des détecteurs de deepfakes audio, permettant à des modèles compacts multilingues de rivaliser avec des systèmes commerciaux plus volumineux.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Ce papier présente CRIMSON, un cadre d'évaluation cliniquement fondé pour les rapports de radiologie générés par IA, qui intègre le contexte complet du patient et une pondération basée sur la gravité clinique pour mieux s'aligner sur le jugement des radiologues que les métriques précédentes.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Le papier présente MAPO, un algorithme d'optimisation de politique sans critique qui combine des retours de processus denses et une estimation d'avantage à normalisation mixte pour améliorer la stabilité et les performances de l'apprentissage par renforcement dans les dialogues multi-tours subjectifs à long terme.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Cet article présente le protocole AI-CROWD, qui approxime une vérité terrain pour l'analyse de contenu à grande échelle en agrégeant les sorties d'un ensemble d'onze grands modèles de langage via un vote majoritaire et des métriques de diagnostic, afin de contourner les limites de coût et de temps du codage humain.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz2026-03-09💬 cs.CL

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Ce papier présente LIT-RAGBench, un nouveau benchmark japonais et anglais conçu pour évaluer de manière systématique et simultanée cinq capacités clés des générateurs de RAG (intégration, raisonnement, logique, tableaux et abstention) afin de guider la sélection et le développement de modèles spécialisés pour des déploiements pratiques.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Le papier présente FlashPrefill, un cadre qui accélère considérablement la phase de préremplissage des modèles de langage à long contexte en découvrant instantanément des motifs d'attention épars et en appliquant un seuillage dynamique, permettant ainsi des gains de vitesse allant jusqu'à 27,78 fois sur des séquences de 256K tokens tout en restant efficace sur des contextes plus courts.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Le papier présente SPOT, un cadre innovant qui améliore l'efficacité et l'interprétabilité du raisonnement des grands modèles de langage en compressant la pensée explicite en tokens latents compacts grâce à un alignement sémantique par niveau de segment et à une contrainte de décodage par tête gelée.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Cette étude révèle que, malgré une bonne adéquation sur les questions sociales générales, les grands modèles de langage actuels échouent à refléter fidèlement les opinions religieuses, en particulier celles des minorités, dans les contextes asiatiques, perpétuant ainsi des stéréotypes et des biais culturels que les interventions légères ne parviennent pas à éliminer.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

L'article présente EpisTwin, une architecture neuro-symbolique qui surmonte la fragmentation des données personnelles en ancrant le raisonnement génératif dans un graphe de connaissances personnel vérifiable, enrichi par des modèles multimodaux et un agent de coordination pour une compréhension holistique et contextuelle.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Cette étude empirique démontre que l'adaptation des modèles de reconnaissance vocale aux langues autochtones du Pacifique, bien que cruciale pour pallier le manque de données, se heurte à un dilemme entre plasticité et stabilité, où des méthodes comme LoRA échouent à éviter l'oubli catastrophique lors de l'apprentissage continu de multiples langues.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL