cs.CV articoli | Gist.Science

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Il paper dimostra che i modelli fondazionali vision-language possiedono una ricca conoscenza geometrica nei loro feature congelati, accessibile tramite semplici sonde lineari con alta precisione, rivelando che le limitazioni nella misurazione fisica derivano principalmente da deficit nel percorso di generazione testuale e non dalla rappresentazione visiva stessa.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Il paper presenta GreenRFM, un framework di pre-addestramento efficiente delle risorse per i modelli fondazionali di radiologia che, grazie a una supervisione "MUST" ottimizzata, raggiunge prestazioni all'avanguardia su diverse modalità di imaging riducendo drasticamente i requisiti computazionali e democratizzando l'accesso a modelli clinici avanzati.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Il paper presenta Match4Annotate, un framework leggero che propaga annotazioni sparse (punti e maschere) sia all'interno che tra diversi video medici, adattando a test-time una rappresentazione neurale implicita basata su SIREN per i feature DINOv3 e apprendendo un campo di deformazione implicito per garantire una corrispondenza precisa e spaziotemporalmente coerente.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Il paper presenta Self-Flow, un paradigma di flow matching auto-supervisionato che integra l'apprendimento delle rappresentazioni semantiche direttamente nel framework generativo tramite una schedulazione duale dei timestep, permettendo una sintesi multi-modale scalabile e di alta qualità senza dipendere da modelli esterni.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

Il paper presenta SG-DOR, un framework relazionale che utilizza un'architettura di grafo neurale consapevole della direzione per inferire scene grafiche con ragionamento sull'occlusione, migliorando la pianificazione della raccolta robotica in colture di peperoni densi attraverso la previsione dell'occlusione e l'inferenza delle connessioni fisiche tra organi.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Questo studio presenta un sistema di intelligenza artificiale addestrato su oltre 45.000 immagini ecografiche che non solo diagnostica le fessure orofacciali fetali con un'accuratezza pari a quella dei radiologi esperti, ma funge anche da strumento didattico efficace per migliorare le capacità diagnostiche dei radiologi meno esperti.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Il paper introduce SCAN, un nuovo framework universale basato su AutoEncoder e sul principio dell'Information Bottleneck che genera mappe di auto-convinzione ad alta risoluzione per fornire spiegazioni visive chiare e fedeli sia per architetture CNN che Transformer, superando i compromessi esistenti tra fedeltà e applicabilità nell'IA spiegabile.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Il paper propone AV-Unified, un framework unificato che integra l'apprendimento congiunto di molteplici compiti di comprensione audio-visiva attraverso la standardizzazione degli input/output in token discreti e l'uso di moduli di percezione spaziotemporale multi-scala e cross-modale per analizzare scene complesse in modo olistico.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Il paper presenta una procedura di calibrazione spaziale per LiDAR diffusivi che stima il footprint e la sensibilità spaziale di ciascun pixel su un'immagine RGB, permettendo l'allineamento e la fusione cross-modale superando le limitazioni dei metodi di calibrazione tradizionali.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Il paper presenta NEGATE, un metodo senza riaddestramento che risolve il problema della negazione linguistica nei modelli di diffusione per la generazione video proiettando le guide semantiche su vincoli strutturati, garantendo così un'aderenza robusta ai comandi negativi mantenendo la coerenza visiva.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Il paper presenta SurgFormer, un modello transformer multirisoluzione che apprende la deformazione dei tessuti molli su mesh volumetriche per simulare in tempo reale sia la deformazione standard che le resezioni chirurgiche, utilizzando dati generati da solver XFEM su due nuovi dataset di colecistectomia e appendicectomia.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Questo lavoro analizza e misura la ridondanza nei dati multisorgente e multimodali per la guida autonoma, dimostrando che la rimozione selettiva di etichette ridondanti migliora le prestazioni di rilevamento degli oggetti, come evidenziato dai risultati ottenuti sui dataset nuScenes e Argoverse 2.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Il paper presenta EgoReasoner, un framework a due stadi che allinea scaffold di ragionamento e segnali di ricompensa alla struttura cognitiva specifica di ciascun compito per migliorare le prestazioni di ragionamento 4D egocentrico, ottenendo risultati superiori rispetto ai modelli più grandi su benchmark complessi.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Il paper introduce Penguin-VL, un modello Vision Language Model efficiente che supera i limiti dei codificatori visivi basati su pre-addestramento contrastivo sostituendoli con un encoder inizializzato da un LLM testuale, ottenendo prestazioni superiori in compiti di ragionamento e comprensione visiva su dispositivi con risorse limitate.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Il paper introduce SUREON, un vasto dataset di domande e risposte estratto da video chirurgici accademici, e due modelli di visione-linguaggio (SureonVLM e SureonVLM-R1) che, grazie a questo addestramento su ragionamento chirurgico, superano i modelli generici nel comprendere intenti, rischi e previsioni durante gli interventi.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE è un framework plug-and-play per la segmentazione 3D few-shot incrementale che migliora le prestazioni delle nuove categorie recuperando e fondendo prototipi da regioni di sfondo non etichettate, ottenendo risultati all'avanguardia su ScanNet e S3DIS senza dimenticare le conoscenze precedenti.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Il paper presenta BEVLM, un framework che colma il divario tra la ricchezza semantica dei Large Language Models e la coerenza spaziale delle rappresentazioni Bird's-Eye View, migliorando significativamente sia il ragionamento nelle scene di guida che le prestazioni di guida autonoma end-to-end in scenari critici per la sicurezza.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Il paper presenta Omni-Diffusion, il primo modello linguistico multimodale universale basato esclusivamente su un'architettura di diffusione discreta mascherata che unifica comprensione e generazione di testo, voce e immagini superando o eguagliando le prestazioni dei sistemi esistenti.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Questo studio dimostra che le prestazioni apparentemente inferiori dei Modelli Linguistici Multimodali (MLLM) nella classificazione delle immagini sono spesso artefatti derivanti da protocolli di valutazione difettosi e da ground truth rumorosi, i quali, una volta corretti, rivelano che tali modelli possono raggiungere livelli di accuratezza paragonabili a quelli dei modelli supervisionati e risultano strumenti preziosi per la curatela dei dataset.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Questo studio dimostra che le illusioni di movimento statico sono causate dalle capacità predittive del cervello, confermando tale ipotesi attraverso un modello generativo basato su reti neurali e test psicometrici sull'uomo, e propone di studiare i "fallimenti motivati" come strumento per la ricerca sull'intelligenza artificiale.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

← Precedente Successivo →