A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Il paper presenta OncoAgent, un agente AI innovativo che traduce le linee guida cliniche testuali in volumi target tridimensionali per la radioterapia in modo zero-shot e senza riaddestramento, ottenendo prestazioni superiori e una maggiore conformità alle linee guida rispetto ai modelli supervisionati tradizionali.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse

Questo studio identifica e spiega teoricamente il "crollo" nel merging di modelli, dimostrando attraverso analisi empiriche che l'incompatibilità rappresentazionale tra compiti, e non il conflitto nello spazio dei parametri, è la causa principale del degrado delle prestazioni quando si uniscono modelli LLM specializzati.

Yuan Cao, Dezhi Ran, Yuzhe Guo, Mengzhou Wu, Simin Chen, Linyi Li, Wei Yang, Tao Xie2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Il paper propone EvoDriveVLA, un innovativo framework di distillazione collaborativa percezione-pianificazione che risolve le instabilità dei modelli Vision-Language-Action per la guida autonoma integrando vincoli percettivi auto-ancorati e ottimizzazione delle traiettorie guidata da un "oracle", ottenendo prestazioni all'avanguardia nelle valutazioni open-loop e closed-loop.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

Il paper presenta GenePlan, un nuovo framework che utilizza algoritmi evolutivi assistiti da modelli linguistici di grandi dimensioni per generare pianificatori generalizzati interpretabili in Python, i quali dimostrano prestazioni superiori rispetto ai metodi basati su prompt e paragonabili agli stati dell'arte nel risolvere compiti di pianificazione classica.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore2026-03-11🤖 cs.AI

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Il paper presenta EDA, un framework efficiente in termini di parametri e dati che utilizza un'architettura decoppiata, una strategia di rigenerazione dei dati e un meccanismo di selezione dei campioni per adattare rapidamente i modelli bozzetto a modelli target finemente sintonizzati, ripristinando così le prestazioni del decoding speculativo con costi di addestramento ridotti.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Questo lavoro propone un formalismo generale basato su principi di conservazione dell'energia e azione estrema per approssimare la retropropagazione nel tempo (BPTT) in modo biologicamente plausibile, estendendo il modello di Equilibrio Latente Generalizzato (GLE) per fornire un quadro rigoroso per l'apprendimento spaziotemporale nel cervello e per circuiti fisici.

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Questo lavoro presenta un framework interpretabile basato su modelli visione-linguaggio per la generazione e valutazione di dati sintetici nel telerilevamento, introducendo il dataset ARAS400k che dimostra come l'addestramento su dati reali aumentati con dati sintetici superi le prestazioni dei modelli basati solo su dati reali per segmentazione semantica e descrizione di immagini.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Il paper introduce PRECEPT, un quadro unificato per l'adattamento al momento del test che combina recupero deterministico di regole, memoria consapevole dei conflitti e un ciclo esterno guidato da Pareto (COMPASS) per migliorare significativamente la resilienza, la generalizzazione composizionale e la robustezza degli agenti LLM rispetto alla conoscenza obsoleta o avversaria.

Arash Shahmansoori2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Il paper introduce MiniAppBench, il primo benchmark completo per valutare la generazione di applicazioni interattive basate su HTML da parte dei modelli linguistici, accompagnato da MiniAppEval, un framework di valutazione automatizzato che supera i limiti delle metriche tradizionali misurando l'allineamento con il giudizio umano su intenzione, staticità e dinamicità.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI