Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Il paper propone un metodo efficiente di ricerca neurale (NAS) basato su modelli linguistici di grandi dimensioni (LLM) che, tramite un ciclo chiuso con memoria di feedback storica e l'uso di due LLM specializzati, genera e affina iterativamente architetture di reti neurali convoluzionali adatte alla distribuzione su dispositivi edge, ottenendo risultati significativi su dataset come CIFAR-10 con un singolo GPU consumer senza necessità di fine-tuning dei modelli.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Questo articolo presenta un framework robusto ed efficiente di Apprendimento per Rinforzo Multi-Agente (MARL) per il controllo dei semafori, che integra randomizzazione dei rapporti di svolta, un'azione di durata esponenziale delle fasi e osservazioni basate sui vicini per migliorare la generalizzazione e ridurre i tempi di attesa del traffico.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Il paper identifica e risolve il problema del "blocco informativo" negli agenti LLM addestrati con apprendimento per rinforzo, proponendo una strategia di riallocazione del segnale di apprendimento che migliora significativamente le capacità di selezione delle azioni e tracciamento delle credenze, portando a incrementi fino al 60% nelle prestazioni di ragionamento attivo.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

SommBench: Assessing Sommelier Expertise of Language Models

Il paper introduce SommBench, un benchmark multilingue sviluppato in collaborazione con sommelier professionisti per valutare l'expertise enologica dei modelli linguistici, rivelando che, sebbene eccellano nelle domande teoriche, faticano significativamente nel completare le caratteristiche sensoriali e nell'abbinamento cibo-vino.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Il paper introduce FlashMotion, un nuovo framework di training che combina un adattatore per traiettorie, distillazione in pochi step e un'ottimizzazione ibrida per generare video controllabili con traiettorie precise in tempi ridotti, superando le limitazioni delle metodologie esistenti in termini di qualità visiva e accuratezza del movimento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Questo studio definisce regole prescrittive per l'allocazione ottimale delle risorse di calcolo nel post-addestramento RL degli LLM, dimostrando che il numero di roll-out paralleli per problema deve aumentare fino a una saturazione prevedibile per massimizzare l'efficienza, a seconda della difficoltà del compito.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Questo lavoro fornisce una caratterizzazione quantitativa dell'oblio nel post-addestramento continuo dei modelli generativi, dimostrando teoricamente come la direzione della divergenza (KL diretta o inversa), la sovrapposizione geometrica delle distribuzioni e le strategie di replay determinino se si verifica la perdita di massa o lo spostamento dei componenti delle conoscenze precedenti.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Il paper presenta BehaviorVLM, un framework unificato basato su modelli visione-linguaggio pre-addestrati che, senza necessità di fine-tuning specifico e con minimo intervento umano, realizza stima della posa e comprensione comportamentale degli animali attraverso un ragionamento visivo-linguistico dettagliato e verificabile.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Questo studio introduce il benchmark MADQA per dimostrare che, sebbene gli agenti multimodali possano raggiungere una precisione paragonabile a quella umana, il loro successo deriva principalmente da una ricerca stocastica e non da un ragionamento strategico, evidenziando la necessità di passare da un approccio di forza bruta a un ragionamento calibrato ed efficiente.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Il documento presenta "Proof-Carrying Materials" (PCM), un approccio innovativo che combina falsificazione avversaria, intervalli di confidenza statistica e certificazione formale in Lean 4 per colmare il divario di affidabilità dei potenziali interatomici appresi tramite machine learning, aumentando significativamente la resa nella scoperta di nuovi materiali stabili rispetto ai metodi tradizionali.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Il paper presenta RDNet, una rete di rilevamento di oggetti salienti per immagini ottiche da telerilevamento che, sostituendo il backbone CNN con SwinTransformer e integrando moduli innovativi per l'adattamento dinamico alle proporzioni regionali e l'enhancement del contesto, supera le limitazioni delle metodologie esistenti nella gestione delle variazioni di scala e nella localizzazione precisa.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI