Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Le papier présente EvoKernel, un cadre d'agents auto-évolutif qui surmonte le manque de données pour la synthèse de noyaux NPU en utilisant une approche de mémoire basée sur la valeur pour passer du brouillage initial au raffinement continu, améliorant ainsi considérablement la justesse et les performances des modèles de langage.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

V0.5V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Ce papier propose V0.5V_{0.5}, un modèle de valeur généraliste qui fusionne de manière adaptative un prior pré-entraîné avec des moyennes empiriques issues de rollouts épars, en utilisant des tests statistiques en temps réel pour allouer dynamiquement le budget de calcul et ainsi minimiser la variance et le biais afin d'améliorer significativement la convergence et les performances des politiques d'apprentissage par renforcement.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

GRACE: A Unified 2D Multi-Robot Path Planning Simulator & Benchmark for Grid, Roadmap, And Continuous Environments

Ce papier présente GRACE, un simulateur et une plateforme de référence unifiés pour la planification de trajectoires multi-robots en 2D, permettant des comparaisons transparentes et reproductibles entre les approches basées sur des grilles, des cartes de routes et des environnements continus.

Chuanlong Zang, Anna Mannucci, Isabelle Barz, Philipp Schillinger, Florian Lier, Wolfgang Hönig2026-03-12🤖 cs.AI

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Cet article présente un corpus bilingue anglais-allemand annoté avec la Norme d'Autorité Intégrée (GND) et une taxonomie machine-actionable, conçus pour faciliter le classement automatique des notices de bibliothèque et le développement de copilotes d'IA transparents et ancrés dans l'autorité pour assister les catalogueurs.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Cet article propose l'échantillonnage prédictif dynamique (DPS), une méthode qui modélise la progression d'apprentissage des prompts comme un système dynamique pour prédire et sélectionner en ligne les exemples les plus informatifs avant les rollouts coûteux, réduisant ainsi considérablement la surcharge computationnelle et accélérant le finetuning par apprentissage par renforcement des grands modèles de raisonnement.

Yixiu Mao, Yun Qu, Qi Wang, Heming Zou, Xiangyang Ji2026-03-12🤖 cs.LG

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Ce papier présente PharmGraph-Auditor, un cadre hybride innovant qui combine une base de connaissances pharmaceutiques unifiée (HPKB) et une méthode de vérification par chaîne (CoV) pour transformer les grands modèles de langage en moteurs de raisonnement transparents et fiables, afin d'améliorer la sécurité et la traçabilité de la vérification des ordonnances.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng Fan2026-03-12🤖 cs.AI

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Ce papier propose une méthode d'entraînement par consensus historique, basée sur une sélection itérative de priors à mélange gaussien, qui élimine définitivement l'effondrement postérieur dans les autoencodeurs variationnels en créant une barrière historique stable qui exclut les solutions dégénérées, et ce sans nécessiter de conditions de stabilité explicites ni de contraintes architecturales.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Ce papier propose RAD, un cadre d'alignement novateur qui remplace les contraintes de coût espéré par des contraintes de dominance stochastique du premier ordre optimisées via le transport optimal, permettant ainsi un contrôle universel des risques spectraux et une meilleure robustesse face aux événements rares et aux distributions hors domaine.

Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum2026-03-12🤖 cs.LG

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Ce papier propose la méthode CCGE, une approche d'exploration guidée par la couverture des contacts qui améliore l'efficacité de l'apprentissage par renforcement profond pour la manipulation dextre généraliste en encourageant la découverte de nouveaux schémas de contact et en facilitant le transfert vers des systèmes robotiques réels.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie, Xuanwei Liu, Yunfan Lou, Chongkai Gao, Zhixuan Xu, Lin Shao2026-03-12🤖 cs.AI

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Le papier présente GroundCount, un cadre qui améliore la précision du comptage des modèles vision-langage en intégrant des données de détection d'objets pour atténuer les hallucinations, démontrant que l'ancrage spatial explicite surpasse la fusion de caractéristiques implicite tout en réduisant le temps d'inférence.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Cet article examine les défis méthodologiques que posent les propriétés dynamiques des systèmes d'IA de pointe pour les études d'amélioration humaine par essais contrôlés randomisés, en synthétisant les solutions pratiques proposées par des experts pour garantir la validité de ces évaluations dans des décisions à haut risque.

Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Cette étude interdisciplinaire démontre que les modèles de vision-langage prédisent les styles artistiques en s'appuyant sur des concepts visuels cohérents et pertinents qui, dans 73 % des cas, correspondent aux critères d'analyse des historiens de l'art.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Le papier présente V2M-Zero, une méthode de génération de musique à partir de vidéo sans données appariées qui assure un alignement temporel en exploitant les structures de changement communes entre les modalités via des courbes d'événements intra-modales, surpassant ainsi les approches basées sur des données appariées.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Ce papier présente NeFTY, un cadre de physique différentiable qui permet la reconstruction 3D quantitative des propriétés matérielles et la détection de défauts souterrains à partir de mesures thermiques de surface, en surmontant les limitations des approches traditionnelles et des réseaux de neurones physiques contraints.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci