cs.AI articles | Gist.Science

SommBench: Assessing Sommelier Expertise of Language Models

Ce papier présente SommBench, un nouveau benchmark multilingue conçu pour évaluer l'expertise des modèles de langage dans le domaine de la sommellerie, en testant leur capacité à maîtriser la théorie du vin, la complétion de caractéristiques et l'accord mets-vins au-delà de la simple connaissance textuelle.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Le papier présente CRAFT, une main anthropomorphe actionnée par tendons dotée d'une conformité hybride rigide-douce qui améliore la force, l'endurance et la manipulation d'objets fragiles tout en restant compacte, peu coûteuse et open-source.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

Cette étude démontre que l'augmentation de l'intelligence et de la diversité des agents IA peut empirir les résultats collectifs en cas de pénurie de ressources, car la sophistication de ces agents aggrave la surcharge du système à moins que la capacité disponible ne dépasse un seuil critique déterminé par la formation spontanée de tribus.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Ce papier présente TopoBench, un benchmark évaluant les capacités de raisonnement topologique des grands modèles de langage sur des énigmes spatiales complexes, révélant que leurs échecs proviennent principalement de difficultés à extraire et maintenir les contraintes spatiales plutôt que d'une incapacité à raisonner sur celles-ci.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Cet article présente une méthode automatisée et peu coûteuse utilisant des agents IA pour générer des environnements d'apprentissage par renforcement haute performance en JAX ou Rust, garantissant une équivalence sémantique et des gains de vitesse considérables par rapport aux implémentations de référence.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Ce papier propose un guide pratique pour l'entraînement par renforcement des grands modèles de langage en identifiant les règles d'allocation optimales des ressources de calcul, notamment en démontrant que le nombre de déroulés parallèles par problème doit augmenter puis se saturer en fonction du budget disponible pour améliorer la stabilité et l'efficacité.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Le papier présente GlyphBanana, une méthode sans entraînement utilisant un flux de travail d'agents pour intégrer des modèles de glyphes dans l'espace latent et les cartes d'attention, permettant ainsi d'améliorer considérablement la précision du rendu de textes complexes et de formules mathématiques dans les modèles de génération d'images.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Ce papier propose une caractérisation quantitative du phénomène d'oubli lors du post-entraînement continu de modèles génératifs en démontrant théoriquement comment la direction de la divergence (KL direct ou inverse), le chevauchement géométrique des modes et les stratégies d'échantillonnage déterminent respectivement l'effondrement des poids des anciennes tâches ou leur dérive contrôlée.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Le papier présente BehaviorVLM, un cadre unifié vision-langage qui permet une estimation de pose et une compréhension comportementale évolutives et interprétables pour des animaux en mouvement libre, sans nécessiter d'affinage spécifique ni d'annotations humaines massives, en guidant des modèles pré-entraînés par un raisonnement explicite et vérifiable.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Cette étude présente le benchmark MADQA pour évaluer si les agents multimodaux raisonnent stratégiquement ou recourent à une recherche stochastique, révélant que, bien qu'ils atteignent une précision humaine, ils dépendent d'une force brute inefficace et échouent à combler l'écart de performance avec un oracle.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

L'article présente les « Proof-Carrying Materials », un cadre de certification formelle et falsifiable qui comble les lacunes de sécurité des potentiels interatomiques appris par machine en combinant falsification adversaire, enveloppes statistiques et vérification formelle pour améliorer significativement la fiabilité et le rendement de la découverte de nouveaux matériaux.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Cet article présente une compilation pratique et polynomiale qui traduit la planification temporelle avec actions duratives vers le langage PDDL+, en préservant sémantiquement la longueur des plans et en démontrant son efficacité expérimentale sur des problèmes numériques complexes.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Ce papier présente WORKSWORLD, un nouveau domaine pour les planificateurs numériques indépendants du domaine, conçu pour automatiser conjointement la planification et l'ordonnancement de pipelines de données distribués en générant dynamiquement les graphes de flux de travail et de ressources sans nécessiter une définition complète du graphe cible.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Ce papier présente RDNet, un réseau de détection d'objets saillants dans les images optiques de télédétection qui surpasse les méthodes existantes en remplaçant le backbone CNN par un SwinTransformer et en intégrant trois modules clés pour gérer les variations d'échelle et améliorer la localisation précise.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Cet article présente Portfolio-CEGAR-SEQ, une approche parallèle exploitant la puissance des processeurs multi-cœurs modernes pour optimiser l'agencement et la planification d'impression 3D séquentielle via une combinaison de stratégies d'arrangement d'objets, surpassant ainsi l'algorithme CEGAR-SEQ original en réduisant le nombre de plaques d'impression nécessaires.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Le papier présente Idea-Catalyst, un cadre novateur utilisant des modèles de langage pour stimuler la créativité scientifique interdisciplinaire en transformant des objectifs de recherche abstraits en problèmes conceptuels génériques afin de récupérer et de réintégrer des insights pertinents d'autres domaines, augmentant ainsi significativement la nouveauté et la pertinence des idées.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Cet article démontre que dans les grands modèles pré-entraînés, les experts spécialisés dans diverses tâches sont si denses autour des poids initiaux qu'une méthode post-entraînement simple, consistant à échantillonner et à agréger des perturbations aléatoires, rivalise avec des techniques d'optimisation structurée complexes comme PPO ou GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Ce document présente les observations et recommandations de Perplexity concernant la sécurité des agents d'IA de pointe, en identifiant leurs nouvelles vulnérabilités, en évaluant les défenses en couches actuelles et en soulignant les lacunes de recherche pour aligner la conception des systèmes multi-agents sur les principes de gestion des risques du NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Cet article propose une technique de vérification incrémentielle pour les réseaux de neurones qui réutilise les conflits appris entre requêtes liées afin d'éliminer les redondances et d'accélérer la vérification, permettant des gains de vitesse allant jusqu'à 1,9 fois par rapport à une approche non incrémentielle.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

← Précédent Suivant →