cs.AI articles | Gist.Science

Routing without Forgetting

Le papier présente « Routing without Forgetting » (RwF), une architecture de transformateur qui résout l'apprentissage continu en ligne en remplaçant l'adaptation par des paramètres fixes par une récupération associative dynamique basée sur l'énergie, permettant ainsi un routage instantané des représentations sans oublier les tâches précédentes.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto SpampinatoWed, 11 Ma🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Cet article propose un formalisme général biologiquement plausible qui approxime la rétropropagation dans le temps en unifiant et en étendant le modèle d'équilibre latent généralisé (GLE) pour offrir un cadre rigoureux d'apprentissage spatiotemporel dans le cortex et des pistes pour des circuits physiques réalisant ces calculs.

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. PetroviciWed, 11 Ma🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Cet article propose une nouvelle discipline, l'ingénierie du contexte, qui, complétée par l'ingénierie de l'intention et de la spécification, forme un modèle de maturité pyramidal essentiel pour passer du simple prompt engineering à des architectures multi-agents autonomes et évolutives au sein des entreprises.

Vera V. VishnyakovaWed, 11 Ma🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Le papier présente PRECEPT, un cadre unifié d'adaptation au moment du test qui améliore la fiabilité des agents LLM en combinant une récupération de règles déterministe, une mémoire conflictuelle et une évolution de prompts guidée par le Pareto, permettant ainsi de surmonter les dégradations de récupération, d'assurer une généralisation compositionnelle robuste et de récupérer efficacement face aux connaissances obsolètes ou adverses.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Le papier propose le benchmark MM-tau-p $^2$ , doté de 12 métriques novatrices, pour évaluer de manière holistique la robustesse et l'adaptation aux personnalités des agents multimodaux dans des environnements à double contrôle, comblant ainsi le vide laissé par les cadres d'évaluation actuels axés sur le chat textuel.

Anupam Purwar, Aditya ChoudharyWed, 11 Ma🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Ce papier présente MiniAppBench, le premier benchmark complet évaluant la capacité des LLMs à générer des mini-applications interactives en HTML, ainsi que MiniAppEval, un cadre d'évaluation agentic qui utilise l'automatisation du navigateur pour mesurer la qualité de ces applications selon des dimensions intentionnelles, statiques et dynamiques.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai LiWed, 11 Ma🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Le papier présente KV-Lock, un cadre sans entraînement pour les modèles de diffusion vidéo basés sur DiT, qui améliore la qualité du premier plan tout en préservant la cohérence de l'arrière-plan en ajustant dynamiquement le verrouillage des clés-valeurs et l'échelle de guidage en fonction de la détection d'hallucinations.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Cet article présente un cadre open-source pour la détection d'anomalies dans les séries temporelles utilisant des réseaux de neurones graphiques (GNN), qui démontre non seulement des performances supérieures et une meilleure interprétabilité, mais propose également une évaluation critique des pratiques méthodologiques actuelles.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico LarrocaWed, 11 Ma🤖 cs.AI

Logics-Parsing-Omni Technical Report

Ce rapport technique présente le cadre Omni Parsing, qui intègre détection holistique, reconnaissance fine et interprétation multi-niveaux pour transformer des données multimodales non structurées en connaissances structurées et traçables, tout en introduisant le modèle Logics-Parsing-Omni et l'ensemble de données de référence OmniParsingBench pour évaluer ces capacités.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin QuWed, 11 Ma🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Le papier présente EsoLang-Bench, un nouveau benchmark utilisant des langages de programmation ésotériques pour révéler que les grands modèles de langage, bien que performants sur les tâches de codage standards, échouent à démontrer un raisonnement véritable en raison d'une dépendance excessive à la mémorisation des données d'entraînement.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Ce papier présente ESAinsTOD, un cadre unifié d'ajustement d'instructions de bout en bout et conscient du schéma qui améliore significativement les performances, la généralisation et la robustesse des modèles de dialogue orientés tâche par rapport aux méthodes existantes.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Le papier présente ActiveUltraFeedback, un pipeline d'apprentissage actif modulaire qui optimise la génération de données de préférence pour l'alignement des modèles de langage en sélectionnant dynamiquement les réponses les plus informatives, permettant d'obtenir des performances supérieures avec jusqu'à six fois moins de données annotées que les méthodes statiques.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Le papier présente Mousse, un nouvel optimiseur qui améliore l'algorithme Muon en intégrant une estimation de la courbure via Shampoo pour adapter les mises à jour spectrales aux paysages d'optimisation anisotropes des réseaux de neurones, réduisant ainsi le nombre d'étapes d'entraînement d'environ 12 % avec un surcoût computationnel négligeable.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Ce papier présente OOD-MMSafe, un nouveau benchmark évaluant la sécurité des modèles multimodaux face aux conséquences cachées plutôt qu'aux intentions malveillantes, et propose le cadre CASPO pour réduire drastiquement les échecs de détection des risques latents.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun MaWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Le papier présente MUGEN, une nouvelle référence évaluant la compréhension multi-audio des grands modèles audio-langage, révélant leurs limites face à l'augmentation du nombre d'entrées et démontrant que des stratégies d'inférence comme la cohérence auto-permutative et le raisonnement en chaîne améliorent significativement leurs performances.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Ce papier présente CVS, une méthode de sélection de données sans entraînement qui identifie les échantillons nécessitant un raisonnement conjoint vision-langage en mesurant l'impact de la question sur la validité d'une réponse, permettant ainsi d'améliorer les performances des modèles tout en réduisant les coûts computationnels.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang LiWed, 11 Ma🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Le papier présente AutoAgent, un cadre multi-agents auto-évoluant qui intègre une cognition évolutive, une prise de décision contextuelle en temps réel et une orchestration de mémoire élastique pour surmonter les limites des agents autonomes statiques et améliorer leur adaptabilité dans des environnements dynamiques.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu XiongWed, 11 Ma🤖 cs.AI

← Précédent Suivant →

cs.AI