cs.CV articoli | Gist.Science

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Il paper presenta BiCAM, un metodo di mappatura delle attivazioni di classe bidirezionale per Vision Transformers che cattura sia i contributi positivi che negativi per migliorare l'interpretabilità, la fedeltà e il rilevamento di esempi adversariali senza necessità di riaddestramento.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Il paper presenta PromptStereo, un metodo zero-shot per la corrispondenza stereoscopica che introduce l'unità ricorrente PRU per integrare prompt di struttura e movimento nei modelli di profondità monoculare, migliorando così la generalizzazione e la velocità di inferenza.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Il paper presenta Nano-EmoX, un modello linguistico multimodale compatto da 2,2 miliardi di parametri che, grazie a una gerarchia cognitiva ispirata e a un framework di addestramento curriculare chiamato P2E, unifica sei compiti affettivi fondamentali per colmare il divario tra percezione ed empatia, ottenendo prestazioni all'avanguardia con elevata efficienza.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Il paper presenta SimRecon, un framework che realizza la ricostruzione composizionale di scene complesse da video reali attraverso una pipeline "Percezione-Generazione-Simulazione" potenziata da due moduli ponte, l'Ottimizzazione Attiva del Punto di Vista e il Sintetizzatore di Grafi di Scena, per garantire sia la fedeltà visiva che la plausibilità fisica degli asset generati.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Il paper presenta OnlineX, un framework feed-forward che risolve il problema della deriva cumulativa nella ricostruzione 3D online attraverso un'evoluzione decoupled dello stato da attivo a stabile, permettendo la ricostruzione simultanea di campi visivi e linguistici con alta fedeltà e stabilità.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Il paper presenta HiFi-Inpaint, un nuovo framework di inpainting basato su riferimento ad alta fedeltà che, grazie all'attenzione di potenziamento condiviso e a una perdita consapevole dei dettagli, risolve le limitazioni attuali nella generazione di immagini uomo-prodotto preservando con precisione i dettagli del prodotto.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Il paper introduce TimeGS, un nuovo framework per la previsione delle serie temporali che supera i limiti delle rappresentazioni 2D statiche trasformando il problema in un rendering generativo basato su 2D Gaussian Splatting, il quale utilizza kernel gaussiani anisotropi e blocchi di rasterizzazione cronologicamente continui per modellare adattivamente le fluttuazioni e le tendenze temporali ottenendo prestazioni allo stato dell'arte.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Il paper presenta CamDirector, un nuovo framework per l'editing di traiettorie video che garantisce coerenza a lungo termine e un controllo preciso della camera attraverso un sistema ibrido di warping con cache mondiale e un modello di diffusione autoregressivo guidato dalla storia, superando i limiti delle metodologie esistenti e ottenendo risultati all'avanguardia su un nuovo benchmark denominato iPhone-PTZ.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

Il paper "Social-JEPA" dimostra che agenti autonomi, addestrati su prospettive diverse dello stesso ambiente senza coordinamento, sviluppano spontaneamente spazi latenti geometricamente isometrici che permettono un'interoperabilità immediata e un trasferimento efficace delle conoscenze.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Questo studio presenta un framework di verifica multimodale per l'identificazione animale che, sfruttando un vasto corpus di 1,9 milioni di immagini e descrizioni testuali sintetiche fuse tramite un meccanismo gating, supera i metodi unimodali con un miglioramento dell'11% nell'accuratezza.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Il paper presenta PDP, un nuovo framework per la rilevazione incrementale di oggetti che, attraverso un paradigma di disaccoppiamento a doppio pool e un modulo di generazione di pseudo-etichette prototipiche, risolve i problemi di degradazione e deriva dei prompt per ottenere prestazioni all'avanguardia senza bisogno di replay.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

Il paper presenta AutoFFS, un innovativo framework basato sull'apprendimento automatico che utilizza deformazioni avversariali per generare morfologie craniche femminili controfattuali, fornendo così una guida quantitativa e riproducibile per la pianificazione della chirurgia di femminilizzazione facciale.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Questo lavoro presenta una valutazione empirica sistematica di funzioni di perdita, architetture CNN e strategie post-allenamento per la classificazione di radiografie toraciche con distribuzione a coda lunga, dimostrando che l'uso di LDAM-DRW con ConvNeXt-Large ha permesso di raggiungere il 5º posto tra 68 squadre nella sfida CXR-LT 2026.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Il paper presenta HAMMER, un nuovo framework che sfrutta i modelli linguistici multimodali (MLLM) per l'ancoraggio delle affordanze 3D guidato dall'intenzione di interazione, integrando in modo gerarchico informazioni contestuali e caratteristiche spaziali per ottenere una localizzazione precisa e robusta senza dipendere da descrizioni attributive esplicite o segmentatori 2D preesistenti.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Il paper propone un metodo di precondizionamento reversibile per Flow Matching e Score-based Diffusion che, migliorando il condizionamento della covarianza delle distribuzioni intermedie, previene la stagnazione ottimizzativa e permette di raggiungere modelli generativi superiori evitando plateau subottimali.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

Il paper presenta MERG3R, un framework di apprendimento senza addestramento basato su un approccio "divide-and-conquer" che permette ai modelli neurali di geometria visiva di ricostruire scene 3D su larga scala superando i limiti di memoria GPU attraverso la partizione, la ricostruzione locale e la fusione globale coerente delle immagini.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Questo lavoro analizza il degrado delle prestazioni dei metodi di recupero di momenti video (VMR) basati su query descrittive quando applicati a query di ricerca, identificando il collasso delle query del decoder come causa principale e proponendo modifiche architetturali che migliorano significativamente l'accuratezza su query di ricerca, specialmente quelle multi-momento.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Questo studio propone un framework di selezione di set di caratteristiche radiomiche specifico per il paziente che, attraverso una strategia di recupero a due stadi, supera i limiti degli approcci tradizionali basati sul ranking marginale, ottenendo prestazioni diagnostiche competitive con i modelli deep learning mantenendo al contempo un'elevata trasparenza e interpretabilità clinica.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Questo lavoro introduce "Cultural Counterfactuals", un dataset sintetico di 60.000 immagini modificate che colloca persone diverse in contesti culturali reali per valutare e quantificare i pregiudizi culturali (religione, nazionalità, status socioeconomico) nei Modelli Visivo-Linguistici su larga scala, colmando il vuoto esistente negli studi sui bias non legati alle caratteristiche fisiche.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Questo studio introduce un modello volumetrico differenziabile basato su trasformazioni KTPolyRigid, che risolve le ambiguità algebriche dei movimenti articolati su larga scala per garantire mappature volumetriche biunivoche e prive di artefatti, migliorando così la registrazione e la segmentazione degli organi fetali nelle risonanze magnetiche.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

← Precedente Successivo →