Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

En proposant de nouveaux benchmarks rigoureux basés sur des problèmes aléatoires d'un point de vue de la physique statistique, cette étude démontre que les algorithmes classiques surpassent encore les réseaux de neurones graphiques pour résoudre les problèmes de satisfaction de contraintes difficiles, tout en mettant en lumière les défis persistants pour ces derniers.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Cette étude démontre que des analystes IA autonomes peuvent reproduire à grande échelle la diversité analytique observée chez les humains, révélant ainsi une incertitude méthodologique significative et plaidant pour une nouvelle norme de transparence exigeant la divulgation des prompts et l'utilisation de rapports de type « multivers » pour les analyses générées par l'IA.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Ce papier présente CARE, un cadre agentique qui améliore la responsabilité clinique dans le raisonnement médical multimodal en décomposant la tâche en modules spécialisés pour générer des preuves visuelles explicites et en utilisant un apprentissage par renforcement pour aligner les réponses sur ces preuves.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Cette étude présente la première évaluation complète du fine-tuning efficace en paramètres (PEFT) pour l'analyse de code multi-tâches, démontrant qu'un module PEFT partagé peut égaler ou surpasser le fine-tuning complet tout en réduisant considérablement les coûts de calcul et de stockage, et en surpassant les modèles de langage généralistes même avec des paramètres limités.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Ce papier présente MoE-SpAc, un cadre d'inférence pour les modèles MoE sur des périphériques hétérogènes qui réutilise le décodage spéculatif comme capteur prédictif pour optimiser la gestion de la mémoire et l'équilibrage de charge, permettant ainsi d'atteindre des gains de vitesse significatifs par rapport aux méthodes existantes.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Ce papier propose un cadre innovant qui optimise la transformation de caractéristiques pilotée par les grands modèles de langage en faisant évoluer dynamiquement un bibliothèque d'expériences de trajectoires validées, surpassant ainsi les méthodes existantes en termes de diversité, d'efficacité et de performance sur des tâches prédictives tabulaires.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Ce papier présente TAMUSA-Chat, un cadre de recherche permettant aux institutions académiques de développer des systèmes conversationnels adaptés à leur domaine grâce à l'affinage supervisé et à la génération augmentée par récupération, tout en garantissant la transparence, la conformité et des pratiques responsables en matière d'IA.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Cette étude propose des fondements théoriques expliquant comment les grands modèles de langage décodent la sémantique des prompts, améliorent leurs performances par l'apprentissage en contexte et décomposent les problèmes complexes via le raisonnement en chaîne de pensée, en démontrant que ces mécanismes reposent sur l'inférence exacte des probabilités de transition et la réduction de l'ambiguïté.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Ce papier présente la création de la base de données LatamQA, un ensemble de plus de 26 000 questions à choix multiples en espagnol et portugais dérivé de Wikidata et de Wikipédia, utilisé pour révéler les biais socioculturels et géographiques des grands modèles de langage envers les pays d'Amérique latine par rapport à l'Espagne.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Ce papier présente SpreadsheetArena, une plateforme d'évaluation par comparaison aveugle conçue pour analyser les performances des modèles de langage dans la génération de classeurs Excel, révélant que les préférences varient considérablement selon les cas d'usage et que les modèles actuels peinent encore à respecter systématiquement les meilleures pratiques de domaine.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL