GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

Le papier présente GenePlan, un cadre novateur utilisant des algorithmes évolutionnaires assistés par des modèles de langage pour générer des planificateurs généralisés interprétables en Python qui surpassent les méthodes basées sur le prompting et rivalisent avec les planificateurs de l'état de l'art en termes de performance et d'efficacité.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore2026-03-11🤖 cs.AI

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Ce papier présente EDA, un cadre efficace et économe en paramètres et en données qui restaure les performances du décodage spéculatif sur des modèles cibles adaptés à des domaines spécifiques en utilisant une architecture découplée, une régénération de données et une sélection d'échantillons, évitant ainsi le coût d'un réentraînement complet.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Le papier présente PRECEPT, un cadre unifié d'adaptation au moment du test qui améliore la fiabilité des agents LLM en combinant une récupération de règles déterministe, une mémoire conflictuelle et une évolution de prompts guidée par le Pareto, permettant ainsi de surmonter les dégradations de récupération, d'assurer une généralisation compositionnelle robuste et de récupérer efficacement face aux connaissances obsolètes ou adverses.

Arash Shahmansoori2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Ce papier présente MiniAppBench, le premier benchmark complet évaluant la capacité des LLMs à générer des mini-applications interactives en HTML, ainsi que MiniAppEval, un cadre d'évaluation agentic qui utilise l'automatisation du navigateur pour mesurer la qualité de ces applications selon des dimensions intentionnelles, statiques et dynamiques.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Le papier présente KV-Lock, un cadre sans entraînement pour les modèles de diffusion vidéo basés sur DiT, qui améliore la qualité du premier plan tout en préservant la cohérence de l'arrière-plan en ajustant dynamiquement le verrouillage des clés-valeurs et l'échelle de guidage en fonction de la détection d'hallucinations.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Cet article présente un cadre open-source pour la détection d'anomalies dans les séries temporelles utilisant des réseaux de neurones graphiques (GNN), qui démontre non seulement des performances supérieures et une meilleure interprétabilité, mais propose également une évaluation critique des pratiques méthodologiques actuelles.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Ce rapport technique présente le cadre Omni Parsing, qui intègre détection holistique, reconnaissance fine et interprétation multi-niveaux pour transformer des données multimodales non structurées en connaissances structurées et traçables, tout en introduisant le modèle Logics-Parsing-Omni et l'ensemble de données de référence OmniParsingBench pour évaluer ces capacités.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI