Grounding Synthetic Data Generation With Vision and Language Models

Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Le papier présente PRECEPT, un cadre unifié d'adaptation au moment du test qui améliore la fiabilité des agents LLM en combinant une récupération de règles déterministe, une mémoire conflictuelle et une évolution de prompts guidée par le Pareto, permettant ainsi de surmonter les dégradations de récupération, d'assurer une généralisation compositionnelle robuste et de récupérer efficacement face aux connaissances obsolètes ou adverses.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Ce papier présente MiniAppBench, le premier benchmark complet évaluant la capacité des LLMs à générer des mini-applications interactives en HTML, ainsi que MiniAppEval, un cadre d'évaluation agentic qui utilise l'automatisation du navigateur pour mesurer la qualité de ces applications selon des dimensions intentionnelles, statiques et dynamiques.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai LiWed, 11 Ma🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Le papier présente KV-Lock, un cadre sans entraînement pour les modèles de diffusion vidéo basés sur DiT, qui améliore la qualité du premier plan tout en préservant la cohérence de l'arrière-plan en ajustant dynamiquement le verrouillage des clés-valeurs et l'échelle de guidage en fonction de la détection d'hallucinations.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Cet article présente un cadre open-source pour la détection d'anomalies dans les séries temporelles utilisant des réseaux de neurones graphiques (GNN), qui démontre non seulement des performances supérieures et une meilleure interprétabilité, mais propose également une évaluation critique des pratiques méthodologiques actuelles.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico LarrocaWed, 11 Ma🤖 cs.AI

Logics-Parsing-Omni Technical Report

Ce rapport technique présente le cadre Omni Parsing, qui intègre détection holistique, reconnaissance fine et interprétation multi-niveaux pour transformer des données multimodales non structurées en connaissances structurées et traçables, tout en introduisant le modèle Logics-Parsing-Omni et l'ensemble de données de référence OmniParsingBench pour évaluer ces capacités.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin QuWed, 11 Ma🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Le papier présente ActiveUltraFeedback, un pipeline d'apprentissage actif modulaire qui optimise la génération de données de préférence pour l'alignement des modèles de langage en sélectionnant dynamiquement les réponses les plus informatives, permettant d'obtenir des performances supérieures avec jusqu'à six fois moins de données annotées que les méthodes statiques.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Le papier présente Mousse, un nouvel optimiseur qui améliore l'algorithme Muon en intégrant une estimation de la courbure via Shampoo pour adapter les mises à jour spectrales aux paysages d'optimisation anisotropes des réseaux de neurones, réduisant ainsi le nombre d'étapes d'entraînement d'environ 12 % avec un surcoût computationnel négligeable.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Le papier présente MUGEN, une nouvelle référence évaluant la compréhension multi-audio des grands modèles audio-langage, révélant leurs limites face à l'augmentation du nombre d'entrées et démontrant que des stratégies d'inférence comme la cohérence auto-permutative et le raisonnement en chaîne améliorent significativement leurs performances.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Ce papier présente CVS, une méthode de sélection de données sans entraînement qui identifie les échantillons nécessitant un raisonnement conjoint vision-langage en mesurant l'impact de la question sur la validité d'une réponse, permettant ainsi d'améliorer les performances des modèles tout en réduisant les coûts computationnels.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang LiWed, 11 Ma🤖 cs.AI