cs.CV articoli | Gist.Science

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Il paper presenta Granulon, un nuovo modello MLLM basato su DINOv3 che integra un controller di granularità testuale e un modulo di aggregazione adattiva per unificare il ragionamento visivo a più livelli di dettaglio, migliorando significativamente l'accuratezza e riducendo le allucinazioni.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Il paper presenta un framework nativo per la rappresentazione che implementa una filigrana robusta e impercettibile per il 3D Gaussian Splatting, garantendo un eccellente compromesso tra qualità visiva e resilienza ai disturbi grazie a moduli intelligenti per la selezione dei portatori e all'uso di decoupled finetuning per fornire spiegazioni auditabili.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Il paper presenta VisionCreator-R1, un agente nativo per la generazione visiva potenziato da meccanismi di riflessione e addestrato tramite un metodo di ottimizzazione congiunta (RPCO) che risolve l'asimmetria nell'apprendimento per rinforzo tra pianificazione e riflessione, superando le prestazioni di Gemini2.5Pro su benchmark per la generazione di immagini singole e multiple.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Questa ricerca presenta un sistema intelligente di assegnazione dei parcheggi basato sulla visione artificiale e sul modello YOLOv8, che utilizza la mappatura prospettica inversa per integrare viste multiple e simulare un ambiente 3D al fine di ottimizzare l'efficienza e la sostenibilità nei contesti urbani.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Il paper presenta MuCTaL, un framework di localizzazione tumorale leggero e addestrato su quattro tipi di cancro che, pur mostrando una buona generalizzazione su un quinto tipo non visto, dimostra come l'addestramento bilanciato su scala moderata possa ottenere prestazioni elevate per l'analisi digitale delle patologie.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR è un nuovo pipeline generativo che supera i limiti dei modelli attuali consentendo un controllo compositivo fine-granularità sui video attraverso un'ibridazione di riferimenti statici e dinamici, permettendo agli utenti di definire esplicitamente le traiettorie, la posizione, la scala e la velocità di ciascun elemento per garantire coerenza spaziotemporale e alta fedeltà visiva.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Questo studio presenta un framework sistematico per valutare la vulnerabilità di tre architetture VLM per la guida autonoma agli attacchi fisici tramite patch, rivelando gravi difetti di robustezza e modelli di vulnerabilità specifici che ne compromettono l'affidabilità in scenari critici per la sicurezza.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Questo lavoro introduce la segmentazione delle query visive (VQS) come nuovo paradigma per localizzare tutte le occorrenze di un oggetto in video non tagliati, presentando il benchmark su larga scala VQS-4K e il metodo VQ-SAM, che estende SAM 2 per ottenere risultati superiori rispetto agli approcci esistenti.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Il paper propone gli adattatori Multi-Kernel Gated (MKGA) e ResMKGA, un'architettura leggera che combina le capacità geometriche dei ViT e quelle testurali delle CNN per migliorare la robustezza nella segmentazione e nella diagnosi di noduli tiroidei in ecografia attraverso diversi centri medici.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Il paper presenta MedCBR, un nuovo framework di ragionamento basato su concetti che integra le linee guida cliniche nei modelli visione-linguaggio per migliorare l'interpretabilità e l'affidabilità delle diagnosi mediche attraverso la generazione di narrazioni cliniche strutturate.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Il documento presenta la MEGC 2026, una sfida internazionale che introduce due nuovi compiti di question answering su video (ME-VQA e ME-LVQA) basati sull'analisi delle micro-espressioni facciali tramite modelli linguistici e visivi multimodali.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Il paper presenta TIDE, un metodo di estrazione senza addestramento per i Diffusion Transformer che risolve i problemi di degradazione strutturale e perdita di dettagli nelle immagini ad alta risoluzione bilanciando i token testuali e immateriali tramite un ancoraggio testuale e un controllo dinamico della temperatura basato sulla progressione spettrale.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Questo studio introduce un benchmark sintetico e propone un approccio innovativo che utilizza modelli visione-linguaggio fondazionali (Gemma 3 e Qwen3-VL) per generare automaticamente configurazioni JSON per simulazioni di piante da immagini di droni, offrendo un framework scalabile per la creazione di gemelli digitali in agricoltura.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Il paper introduce BiCLIP, un framework semplice ed efficiente che migliora l'adattamento ai domini specifici per i modelli visione-linguaggio applicando una trasformazione geometrica strutturata ai feature multimodali, ottenendo risultati all'avanguardia su 11 benchmark.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Questo lavoro introduce il primo benchmark di apprendimento continuo senza esempi per la segmentazione audio-visiva e propone il modello ATLAS, che combina condizionamento pre-fusione guidato dall'audio e ancoraggio a basso rango per mitigare l'oblio catastrofico in ambienti dinamici.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Il paper presenta SVG-EAR, un metodo senza parametri che migliora l'efficienza della generazione video tramite Diffusion Transformers utilizzando una compensazione lineare basata su centroidi e un routing consapevole dell'errore per recuperare le informazioni perse nella sparsificazione, ottenendo significativi guadagni di velocità senza compromettere la qualità.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Il paper presenta SurgCalib, un framework automatico e senza marcatori basato su Gaussian Splatting per la calibrazione mano-occhio del robot chirurgico da Vinci, che risolve le sfide delle misurazioni imprecise dei robot a cavo attraverso un'ottimizzazione differenziabile sotto vincolo RCM, ottenendo errori di riproiezione e di distanza 3D ridotti sul benchmark dVRK.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

Il paper presenta SkipGS, un metodo plug-and-play che accelera l'addestramento del 3D Gaussian Splatting riducendo del 23,1% il tempo totale attraverso un meccanismo adattivo che salta selettivamente le fasi di backpropagation quando i gradienti sono ridondanti, mantenendo al contempo una qualità di ricostruzione comparabile.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Questo lavoro propone un nuovo framework di autenticazione basato su diffusione che, sfruttando la firma della stampante e il condizionamento multimodale, supera i limiti dei metodi tradizionali nel distinguere i codici di rilevamento copie originali dalle contraffazioni ad alta qualità.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

← Precedente Successivo →