cs.CV articoli | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

Il paper presenta RMD, un nuovo framework di distillazione che colma il divario distributivo tra risoluzioni diverse tramite mappatura basata sul logSNR e reiniezione del rumore previsto, consentendo un'inferenza multi-risoluzione ad alta fedeltà con accelerazioni fino a 33,4 volte su SDXL e 25,6 volte su Wan2.1-14B.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Questo studio dimostra che i modelli visione-linguaggio falliscono sistematicamente di fronte a distorsioni cromatiche spaziali che gli esseri umani percepiscono facilmente, suggerendo che l'adozione di pre-elaborazioni ispirate alla percezione umana possa migliorare la loro robustezza.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Questo studio presenta un framework di "Trattamento Virtuale" basato su modelli generativi multimodali, in particolare quelli diffusion-based, che sintetizzano immagini CT follow-up realistiche per prevedere l'evoluzione dei tumori del polmone non a piccole cellule (NSCLC) durante la radioterapia, integrando dati anatomici, variabili cliniche e incrementi di dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Il paper presenta VLM-RobustBench, un benchmark completo che valuta la robustezza dei modelli visione-linguaggio contro 133 tipi di perturbazioni, rivelando che le distorsioni geometriche e di ricampionamento a bassa severità compromettono le prestazioni più delle corruzioni fotometriche visivamente gravi, evidenziando la fragilità spaziale di questi modelli.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Il paper propone la Reflective Flow Sampling (RF-Sampling), un metodo di inferenza senza addestramento e teoricamente fondato che migliora la qualità e l'allineamento al prompt dei modelli di generazione immagini basati sul flow matching, come FLUX, dimostrando anche capacità di scaling al momento del test.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Il paper presenta FreeOcc, una pipeline di previsione dell'occupazione panottica priva di addestramento che sfrutta modelli fondazionali pre-addestrati per ricostruire geometrie e semantica 3D da immagini multi-veduta, ottenendo prestazioni competitive con metodi supervisionati senza richiedere dati di addestramento specifici.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Il paper propone un framework semi-supervisionato per la segmentazione delle immagini ecografiche mammarie che, sfruttando modelli visione-linguaggio per generare pseudo-etichette senza addestramento e tecniche di raffinamento avanzate, raggiunge prestazioni paragonabili a quelle dei modelli completamente supervisionati utilizzando solo il 2,5% di dati annotati.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Il paper presenta JOPP-3D, un framework innovativo per la segmentazione semantica open-vocabulary che unisce dati di nuvole di punti e immagini panoramiche per abilitare la comprensione delle scene tramite query linguistiche, ottenendo risultati significativamente superiori allo stato dell'arte su dataset come Stanford-2D-3D-s e ToF-360.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Questo paper presenta un metodo per ottimizzare i modelli di diffusione 3D per la generazione di immagini mediche, utilizzando l'apprendimento per rinforzo con un sistema di ricompensa multi-scala che migliora sia la coerenza strutturale globale che i dettagli locali, ottenendo risultati superiori nelle metriche di qualità e nell'utilità per compiti di classificazione tumorale.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Questo lavoro propone due tecniche, aggregazione automatica e ridimensionamento per pixel, per colmare le discrepanze nelle mappe di attenzione dei modelli di diffusione, consentendo ai segmentatori senza addestramento di scalare efficacemente con la potenza generativa dei modelli sottostanti.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Il documento propone un framework a due stadi che combina l'apprendimento contrastivo supervisionato su alfabeti inventati con la distillazione da insegnante a studente per apprendere metriche di similarità tra sistemi di scrittura storici, permettendo sia la distinzione netta tra sistemi diversi che l'identificazione di somiglianze latenti senza richiedere relazioni evolutive verificate.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Questo articolo propone il "Motion Turing Test" e il dataset HHMotion per valutare l'umanizzazione dei movimenti dei robot umanoidi, rivelando che le attuali intelligenze artificiali multimodali faticano a prevedere l'umanicità dei movimenti e introducendo un modello di base più efficace per tale compito.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Il paper introduce CRIMSON, un nuovo framework di valutazione basato su LLM e fondato su principi clinici per i report radiologici generativi, che assegna pesi differenziati agli errori in base alla loro gravità e rilevanza clinica, dimostrando una forte allineamento con il giudizio di radiologi esperti attraverso benchmark specifici come RadJudge e RadPref.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Il paper presenta SpaCRD, un metodo di apprendimento per trasferimento che fonde profondamente immagini istologiche e dati di trascrittomica spaziale tramite una rete di attenzione incrociata bidirezionale per rilevare con maggiore accuratezza le regioni tumorali, superando i limiti dei metodi attuali e dimostrando prestazioni superiori su 23 dataset multi-piattaforma.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Il paper presenta ALANet, una rete neurale adattiva che rimuove riflessi complessi dalle immagini integrando strategie di filtraggio e ottimizzazione per gestire descrizioni linguistiche imprecise, supportata dal nuovo dataset CRLAV.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Questo lavoro propone un nuovo framework per la segmentazione delle azioni umane basato su scheletri e supervisionato da punti, che utilizza dati multimodali e tecniche di pseudo-etichettatura per raggiungere prestazioni competitive riducendo drasticamente il costo delle annotazioni rispetto ai metodi fully-supervised.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

Il paper introduce VG3S, un nuovo framework che potenzia la previsione dell'occupazione semantica 3D integrando forti segnali geometrici da Modelli Fondamentali Visivi (VFM) tramite un adattatore gerarchico, ottenendo significativi miglioramenti di accuratezza sul benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

Il paper introduce CoE, un framework di riepilogo multimodale senza addestramento che utilizza un Grafo Gerarchico di Eventi per guidare un ragionamento strutturato a catena, superando le limitazioni degli approcci esistenti e ottenendo prestazioni superiori su otto dataset diversi.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

Il paper presenta EntON, una strategia di densificazione dei vicini ottimizzata tramite entropia degli autovalori per lo Splatting Gaussiano 3D, che migliora significativamente la precisione geometrica e la qualità del rendering riducendo al contempo il numero di gaussiane e il tempo di addestramento.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

← Precedente Successivo →