Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Questo studio presenta un framework di "Trattamento Virtuale" basato su modelli generativi multimodali, in particolare quelli diffusion-based, che sintetizzano immagini CT follow-up realistiche per prevedere l'evoluzione dei tumori del polmone non a piccole cellule (NSCLC) durante la radioterapia, integrando dati anatomici, variabili cliniche e incrementi di dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Il paper presenta VLM-RobustBench, un benchmark completo che valuta la robustezza dei modelli visione-linguaggio contro 133 tipi di perturbazioni, rivelando che le distorsioni geometriche e di ricampionamento a bassa severità compromettono le prestazioni più delle corruzioni fotometriche visivamente gravi, evidenziando la fragilità spaziale di questi modelli.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Il paper propone un framework semi-supervisionato per la segmentazione delle immagini ecografiche mammarie che, sfruttando modelli visione-linguaggio per generare pseudo-etichette senza addestramento e tecniche di raffinamento avanzate, raggiunge prestazioni paragonabili a quelle dei modelli completamente supervisionati utilizzando solo il 2,5% di dati annotati.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Il paper presenta JOPP-3D, un framework innovativo per la segmentazione semantica open-vocabulary che unisce dati di nuvole di punti e immagini panoramiche per abilitare la comprensione delle scene tramite query linguistiche, ottenendo risultati significativamente superiori allo stato dell'arte su dataset come Stanford-2D-3D-s e ToF-360.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Questo paper presenta un metodo per ottimizzare i modelli di diffusione 3D per la generazione di immagini mediche, utilizzando l'apprendimento per rinforzo con un sistema di ricompensa multi-scala che migliora sia la coerenza strutturale globale che i dettagli locali, ottenendo risultati superiori nelle metriche di qualità e nell'utilità per compiti di classificazione tumorale.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Il documento propone un framework a due stadi che combina l'apprendimento contrastivo supervisionato su alfabeti inventati con la distillazione da insegnante a studente per apprendere metriche di similarità tra sistemi di scrittura storici, permettendo sia la distinzione netta tra sistemi diversi che l'identificazione di somiglianze latenti senza richiedere relazioni evolutive verificate.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Questo articolo propone il "Motion Turing Test" e il dataset HHMotion per valutare l'umanizzazione dei movimenti dei robot umanoidi, rivelando che le attuali intelligenze artificiali multimodali faticano a prevedere l'umanicità dei movimenti e introducendo un modello di base più efficace per tale compito.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Il paper introduce CRIMSON, un nuovo framework di valutazione basato su LLM e fondato su principi clinici per i report radiologici generativi, che assegna pesi differenziati agli errori in base alla loro gravità e rilevanza clinica, dimostrando una forte allineamento con il giudizio di radiologi esperti attraverso benchmark specifici come RadJudge e RadPref.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Il paper presenta SpaCRD, un metodo di apprendimento per trasferimento che fonde profondamente immagini istologiche e dati di trascrittomica spaziale tramite una rete di attenzione incrociata bidirezionale per rilevare con maggiore accuratezza le regioni tumorali, superando i limiti dei metodi attuali e dimostrando prestazioni superiori su 23 dataset multi-piattaforma.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs