Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Il paper presenta VLM-RobustBench, un benchmark completo che valuta la robustezza dei modelli visione-linguaggio contro 133 tipi di perturbazioni, rivelando che le distorsioni geometriche e di ricampionamento a bassa severità compromettono le prestazioni più delle corruzioni fotometriche visivamente gravi, evidenziando la fragilità spaziale di questi modelli.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Questo studio dimostra che l'uso di perturbazioni d'ingresso strutturate spazialmente, come il rumore di Perlin, all'interno di un ensemble di Graph Neural Networks permette di generare previsioni probabilistiche affidabili della temperatura superficiale del mare senza costi di addestramento aggiuntivi, migliorando la calibrazione dell'incertezza rispetto a perturbazioni puramente casuali.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Il documento propone un framework a due stadi che combina l'apprendimento contrastivo supervisionato su alfabeti inventati con la distillazione da insegnante a studente per apprendere metriche di similarità tra sistemi di scrittura storici, permettendo sia la distinzione netta tra sistemi diversi che l'identificazione di somiglianze latenti senza richiedere relazioni evolutive verificate.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Il paper introduce CRIMSON, un nuovo framework di valutazione basato su LLM e fondato su principi clinici per i report radiologici generativi, che assegna pesi differenziati agli errori in base alla loro gravità e rilevanza clinica, dimostrando una forte allineamento con il giudizio di radiologi esperti attraverso benchmark specifici come RadJudge e RadPref.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Il paper presenta FlashPrefill, un framework che abilita un prefilling ultra-rapido per modelli linguistici a lungo contesto attraverso la scoperta istantanea di pattern di attenzione e una soglia dinamica, ottenendo un speedup fino a 27,78x su sequenze di 256K senza degradare le prestazioni su contesti più brevi.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Questo articolo introduce la "Conversational Demand Response" (CDR), un meccanismo di coordinamento bidirezionale basato sull'intelligenza artificiale agentic che permette agli aggregatori e ai prosumer di interagire tramite linguaggio naturale, colmando il divario tra automazione scalabile e la necessità di trasparenza e controllo utente per garantire una partecipazione sostenibile.

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Il paper presenta TaPD, un framework unificato e plug-and-play che utilizza la distillazione progressiva temporale-adattiva e un modulo di riempimento temporale per migliorare l'accuratezza della previsione delle traiettorie in scenari di guida autonoma con storie di osservazione variabili o estremamente brevi.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Il paper presenta HiPP-Prune, un framework di pruning strutturato gerarchico condizionato dalle preferenze che ottimizza l'allocazione delle risorse nei modelli visione-linguaggio per bilanciare efficienza, utilità del compito e robustezza all'allucinazione, mitigando la degradazione della comprensione visiva attraverso segnali di sensibilità visiva e ottimizzazione multi-obiettivo.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI