SommBench: Assessing Sommelier Expertise of Language Models

Ce papier présente SommBench, un nouveau benchmark multilingue conçu pour évaluer l'expertise des modèles de langage dans le domaine de la sommellerie, en testant leur capacité à maîtriser la théorie du vin, la complétion de caractéristiques et l'accord mets-vins au-delà de la simple connaissance textuelle.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Ce papier présente TopoBench, un benchmark évaluant les capacités de raisonnement topologique des grands modèles de langage sur des énigmes spatiales complexes, révélant que leurs échecs proviennent principalement de difficultés à extraire et maintenir les contraintes spatiales plutôt que d'une incapacité à raisonner sur celles-ci.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Ce papier propose un guide pratique pour l'entraînement par renforcement des grands modèles de langage en identifiant les règles d'allocation optimales des ressources de calcul, notamment en démontrant que le nombre de déroulés parallèles par problème doit augmenter puis se saturer en fonction du budget disponible pour améliorer la stabilité et l'efficacité.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Le papier présente GlyphBanana, une méthode sans entraînement utilisant un flux de travail d'agents pour intégrer des modèles de glyphes dans l'espace latent et les cartes d'attention, permettant ainsi d'améliorer considérablement la précision du rendu de textes complexes et de formules mathématiques dans les modèles de génération d'images.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Ce papier propose une caractérisation quantitative du phénomène d'oubli lors du post-entraînement continu de modèles génératifs en démontrant théoriquement comment la direction de la divergence (KL direct ou inverse), le chevauchement géométrique des modes et les stratégies d'échantillonnage déterminent respectivement l'effondrement des poids des anciennes tâches ou leur dérive contrôlée.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Le papier présente BehaviorVLM, un cadre unifié vision-langage qui permet une estimation de pose et une compréhension comportementale évolutives et interprétables pour des animaux en mouvement libre, sans nécessiter d'affinage spécifique ni d'annotations humaines massives, en guidant des modèles pré-entraînés par un raisonnement explicite et vérifiable.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Cette étude présente le benchmark MADQA pour évaluer si les agents multimodaux raisonnent stratégiquement ou recourent à une recherche stochastique, révélant que, bien qu'ils atteignent une précision humaine, ils dépendent d'une force brute inefficace et échouent à combler l'écart de performance avec un oracle.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

L'article présente les « Proof-Carrying Materials », un cadre de certification formelle et falsifiable qui comble les lacunes de sécurité des potentiels interatomiques appris par machine en combinant falsification adversaire, enveloppes statistiques et vérification formelle pour améliorer significativement la fiabilité et le rendement de la découverte de nouveaux matériaux.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Ce papier présente WORKSWORLD, un nouveau domaine pour les planificateurs numériques indépendants du domaine, conçu pour automatiser conjointement la planification et l'ordonnancement de pipelines de données distribués en générant dynamiquement les graphes de flux de travail et de ressources sans nécessiter une définition complète du graphe cible.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Ce papier présente RDNet, un réseau de détection d'objets saillants dans les images optiques de télédétection qui surpasse les méthodes existantes en remplaçant le backbone CNN par un SwinTransformer et en intégrant trois modules clés pour gérer les variations d'échelle et améliorer la localisation précise.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Cet article présente Portfolio-CEGAR-SEQ, une approche parallèle exploitant la puissance des processeurs multi-cœurs modernes pour optimiser l'agencement et la planification d'impression 3D séquentielle via une combinaison de stratégies d'arrangement d'objets, surpassant ainsi l'algorithme CEGAR-SEQ original en réduisant le nombre de plaques d'impression nécessaires.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Le papier présente Idea-Catalyst, un cadre novateur utilisant des modèles de langage pour stimuler la créativité scientifique interdisciplinaire en transformant des objectifs de recherche abstraits en problèmes conceptuels génériques afin de récupérer et de réintégrer des insights pertinents d'autres domaines, augmentant ainsi significativement la nouveauté et la pertinence des idées.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL