Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Il paper dimostra che i modelli fondazionali vision-language possiedono una ricca conoscenza geometrica nei loro feature congelati, accessibile tramite semplici sonde lineari con alta precisione, rivelando che le limitazioni nella misurazione fisica derivano principalmente da deficit nel percorso di generazione testuale e non dalla rappresentazione visiva stessa.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Il paper presenta GreenRFM, un framework di pre-addestramento efficiente delle risorse per i modelli fondazionali di radiologia che, grazie a una supervisione "MUST" ottimizzata, raggiunge prestazioni all'avanguardia su diverse modalità di imaging riducendo drasticamente i requisiti computazionali e democratizzando l'accesso a modelli clinici avanzati.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Il paper presenta Match4Annotate, un framework leggero che propaga annotazioni sparse (punti e maschere) sia all'interno che tra diversi video medici, adattando a test-time una rappresentazione neurale implicita basata su SIREN per i feature DINOv3 e apprendendo un campo di deformazione implicito per garantire una corrispondenza precisa e spaziotemporalmente coerente.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Il paper presenta Self-Flow, un paradigma di flow matching auto-supervisionato che integra l'apprendimento delle rappresentazioni semantiche direttamente nel framework generativo tramite una schedulazione duale dei timestep, permettendo una sintesi multi-modale scalabile e di alta qualità senza dipendere da modelli esterni.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

Il paper presenta SG-DOR, un framework relazionale che utilizza un'architettura di grafo neurale consapevole della direzione per inferire scene grafiche con ragionamento sull'occlusione, migliorando la pianificazione della raccolta robotica in colture di peperoni densi attraverso la previsione dell'occlusione e l'inferenza delle connessioni fisiche tra organi.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Questo studio presenta un sistema di intelligenza artificiale addestrato su oltre 45.000 immagini ecografiche che non solo diagnostica le fessure orofacciali fetali con un'accuratezza pari a quella dei radiologi esperti, ma funge anche da strumento didattico efficace per migliorare le capacità diagnostiche dei radiologi meno esperti.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Il paper presenta SurgFormer, un modello transformer multirisoluzione che apprende la deformazione dei tessuti molli su mesh volumetriche per simulare in tempo reale sia la deformazione standard che le resezioni chirurgiche, utilizzando dati generati da solver XFEM su due nuovi dataset di colecistectomia e appendicectomia.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Il paper presenta EgoReasoner, un framework a due stadi che allinea scaffold di ragionamento e segnali di ricompensa alla struttura cognitiva specifica di ciascun compito per migliorare le prestazioni di ragionamento 4D egocentrico, ottenendo risultati superiori rispetto ai modelli più grandi su benchmark complessi.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Il paper introduce Penguin-VL, un modello Vision Language Model efficiente che supera i limiti dei codificatori visivi basati su pre-addestramento contrastivo sostituendoli con un encoder inizializzato da un LLM testuale, ottenendo prestazioni superiori in compiti di ragionamento e comprensione visiva su dispositivi con risorse limitate.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Il paper introduce SUREON, un vasto dataset di domande e risposte estratto da video chirurgici accademici, e due modelli di visione-linguaggio (SureonVLM e SureonVLM-R1) che, grazie a questo addestramento su ragionamento chirurgico, superano i modelli generici nel comprendere intenti, rischi e previsioni durante gli interventi.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Il paper presenta Omni-Diffusion, il primo modello linguistico multimodale universale basato esclusivamente su un'architettura di diffusione discreta mascherata che unifica comprensione e generazione di testo, voce e immagini superando o eguagliando le prestazioni dei sistemi esistenti.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Questo studio dimostra che le prestazioni apparentemente inferiori dei Modelli Linguistici Multimodali (MLLM) nella classificazione delle immagini sono spesso artefatti derivanti da protocolli di valutazione difettosi e da ground truth rumorosi, i quali, una volta corretti, rivelano che tali modelli possono raggiungere livelli di accuratezza paragonabili a quelli dei modelli supervisionati e risultano strumenti preziosi per la curatela dei dataset.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs