Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Il paper introduce un nuovo framework e dataset per valutare l'informatività orientata alle decisioni dei modelli visione-linguaggio nel settore alberghiero, rivelando che, sebbene le prestazioni migliorino con un fine-tuning specifico, i modelli attuali non sono intrinsecamente consapevoli delle esigenze informative degli utenti.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Il paper introduce CCR-Bench, un nuovo benchmark progettato per valutare la capacità dei modelli linguistici di seguire istruzioni complesse in scenari reali, evidenziando come gli attuali modelli di punta presentino ancora carenze significative nel gestire l'interazione intricata tra contenuti, formati e flussi di controllo logico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Questo articolo introduce un quadro teorico basato sul filtraggio particellare per analizzare e migliorare i metodi di inferenza parallela nei modelli linguistici, identificando sia criteri per garantire l'accuratezza del campionamento sia limiti fondamentali intrinseci a tali approcci.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Questo studio presenta un quadro decisionale probabilistico che combina modelli di intelligenza artificiale con un modello statistico delle aspettative degli agricoltori per generare previsioni monsoniche più accurate, le quali sono state implementate con successo nel 2025 per fornire informazioni cruciali a 38 milioni di agricoltori indiani.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Il lavoro presenta EveryQuery, un modello fondazionale per le cartelle cliniche elettroniche che, attraverso un preaddestramento condizionato al compito, abilita inferenze zero-shot dirette e più efficienti rispetto ai metodi autoregressivi, ottenendo prestazioni superiori nella maggior parte dei compiti predittivi clinici, inclusi quelli relativi a eventi rari.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Il paper presenta un framework di autonomia puramente visiva per la navigazione broncoscopica robotizzata, basato su agenti gerarchici a lungo e breve termine e un critico di modello del mondo, che ha dimostrato la fattibilità preclinica raggiungendo con successo obiettivi anatomici in modelli fantasma, polmoni ex vivo e modelli viventi senza l'uso di tracciamento esterno.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Il paper introduce Rel-MOSS, un nuovo approccio di apprendimento profondo relazionale che affronta il problema dello squilibrio delle classi nei database relazionali mediante un sintetizzatore di minoranza guidato dalle relazioni e un controllore di gate relazionale, ottenendo prestazioni superiori rispetto agli stati dell'arte su 12 dataset.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Il paper propone IMSE, un metodo di adattamento al test che sfrutta gli esperti spettrali intrinseci dei Vision Transformers tramite la decomposizione SVD e una perdita di massimizzazione della diversità, ottenendo prestazioni all'avanguardia con un numero di parametri aggiornabili drasticamente ridotto.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Il paper presenta SWE-Fuse, un framework di addestramento che combina apprendimento da traiettorie prive di issue e RLVR consapevole dell'entropia per superare le descrizioni dei problemi di bassa qualità, ottenendo risultati significativamente superiori rispetto agli agenti basati su LLM esistenti nel benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Il documento propone l'adozione di agenti AI supervisionati basati su deep learning come nuova evoluzione del metodo scientifico per gestire la complessità dei dati moderni, illustrando attraverso il sistema Dr. Sai dell'Istituto di Fisica delle Alte Energie dell'Accademia Cinese delle Scienze come tale paradigma estenda le capacità cognitive dei ricercatori senza sostituirli.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Il paper presenta EvoStage, un nuovo paradigma evolutivo che combina agenti multipli, una prospettiva globale-locale e un design algoritmico a stadi guidato da LLM per superare i limiti dei metodi attuali, ottenendo risultati superiori rispetto agli esperti umani e allo stato dell'arte in compiti complessi come il posizionamento dei chip e l'ottimizzazione bayesiana.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Il paper presenta HILA, un framework che integra un ciclo di ottimizzazione della politica duale per addestrare agenti multi-LLM a decidere metacognitivamente quando collaborare con esperti umani, trasformando il feedback in apprendimento continuo e superando i limiti delle conoscenze statiche dei modelli pre-addestrati.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Il paper presenta VORL-EXPLORE, un approccio ibrido di apprendimento e pianificazione che migliora l'esplorazione multi-robot in ambienti dinamici accoppiando l'allocazione dei compiti con l'esecuzione locale tramite un segnale di fedeltà condiviso, riducendo così la contesa e adattandosi autonomamente agli ostacoli non stazionari.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs