cs.CV articoli | Gist.Science

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Il paper propone MiTA Attention, un meccanismo efficiente che unifica metodi di attenzione esistenti in un quadro comune di scalatura dei pesi veloci e introduce una strategia di compressione e instradamento che riduce la complessità aggregando le coppie chiave-valore più attivate per un insieme limitato di query landmark.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Il paper introduce DDP-WM, un modello del mondo efficiente basato sulla previsione dinamica disaccoppiata che, decomponendo l'evoluzione degli stati in dinamiche primarie e aggiornamenti contestuali, supera i limiti computazionali dei modelli densi ottenendo notevoli miglioramenti sia nella velocità di inferenza che nel successo della pianificazione robotica.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Il paper presenta Rolling Sink, una soluzione priva di addestramento che colma il divario tra l'addestramento a orizzonte limitato e il test a durata aperta nei modelli di diffusione video autoregressivi, permettendo la generazione coerente di video ultra-lunghi (fino a 30 minuti) partendo da clip brevi.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Il paper propone un framework di apprendimento attivo guidato dall'interpretabilità che, integrando l'allineamento spaziale delle mappe di attenzione con le regioni di interesse definite dagli esperti, seleziona campioni di dati medici in modo più efficiente rispetto al campionamento casuale, migliorando sia le prestazioni predittive che la rilevanza clinica delle immagini.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Il documento presenta Pailitao-VL, un sistema di ricerca multimodale industriale in tempo reale che supera le limitazioni delle soluzioni attuali grazie a un nuovo paradigma di embedding basato sul riconoscimento di ID assoluti e a un riordinatore generativo comparativo, ottenendo prestazioni all'avanguardia e un significativo impatto commerciale su Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

Il paper propone DeltaGateNet, un nuovo framework che modella esplicitamente le dinamiche temporali bidirezionali dei segnali EEG per riconoscere l'affaticamento alla guida, superando le sfide della non stazionarietà e delle dinamiche neurali asimmetriche e ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi dataset pubblici.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Il paper propone EA-Swin, un modello basato su Swin Transformer che rileva video generati dall'IA analizzando direttamente le embedding pre-addestrate, e introduce il dataset EA-Video per dimostrare una superiorità significativa rispetto agli stati dell'arte in termini di accuratezza e generalizzazione su generatori mai visti.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard è un framework basato su transformer e grafi che abilita la ricerca di identità nelle città rispettando la privacy, integrando metriche adattive, attenzione condizionata spazialmente e embedding differenzialmente privati per garantire robustezza alle variazioni di vista e all'occlusione senza condividere immagini grezze.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Il paper presenta CARE, un modello fondazionale per l'analisi delle immagini istopatologiche che, grazie a un preaddestramento su larga scala e a una guida molecolare adattiva, supera i limiti dei modelli esistenti nell'identificare regioni di interesse coerenti, ottenendo prestazioni superiori su numerosi compiti downstream con una frazione dei dati di addestramento solitamente necessari.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Il paper presenta MasqLoRA, un framework di attacco che sfrutta la flessibilità degli adattatori LoRA per iniettare in modo subdolo backdoor nei modelli di diffusione testo-immagine, consentendo a un modulo malevolo di generare immagini specifiche in risposta a trigger testuali pur rimanendo indistinguibile dal comportamento normale.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Il paper introduce RobustVisRAG, un framework causale a doppio percorso che migliora la robustezza dei sistemi VisRAG separando semanticamente i segnali di degrado visivo dai contenuti semantici, ottenendo così prestazioni superiori su documenti distorti senza sacrificare l'accuratezza su input puliti.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Il paper propone LFG, un framework di pre-addestramento senza etichette che apprende rappresentazioni unificate per la guida autonoma da video non annotati e senza pose, utilizzando segnali multi-modali per prevedere mappe di punti, pose e segmentazione, ottenendo prestazioni superiori nelle attività di pianificazione e previsione del movimento.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Il paper presenta Diffusion Probe, un framework efficiente e agnostico rispetto al modello che prevede la qualità finale delle immagini generate da modelli di diffusione testo-immagine analizzando le distribuzioni delle mappe di attenzione incrociata nelle fasi iniziali, consentendo così di ottimizzare i flussi di lavoro riducendo i costi computazionali.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Il paper introduce DiffusionHarmonizer, un framework di enhancement generativo online che utilizza un modello di diffusione a singolo passo per trasformare le ricostruzioni neurali imperfette in simulazioni fotorealistiche e temporalmente coerenti, risolvendo problemi di artefatti e integrazione di oggetti dinamici.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Il paper introduce UFO-4D, un framework feedforward unificato che ricostruisce una rappresentazione 4D densa da due immagini non posizionate stimando direttamente Gaussiane 3D dinamiche, permettendo così la stima congiunta e coerente di geometria, movimento e posa della camera senza necessità di ottimizzazione durante il test.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Il paper introduce Dr. Seg, un framework plug-and-play basato su GRPO che, superando l'errata assunzione di trasferibilità diretta dei paradigmi di ragionamento linguistico alla percezione visiva, migliora le prestazioni dei modelli VLLM attraverso un meccanismo di "Look-to-Confirm" e una ricompensa basata sul ranking distribuzionale.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Il paper propone AlignVAR, un nuovo framework di autoregressione visiva per la super-risoluzione delle immagini che risolve i problemi di coerenza globale e accumulo di errori attraverso la regressione autoregressiva con coerenza spaziale e vincoli di coerenza gerarchica, ottenendo risultati strutturalmente superiori con un'inferenza 10 volte più veloce e un numero di parametri ridotto rispetto ai metodi basati su diffusione.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Il paper presenta SOLACE, un framework di post-addestramento per la generazione di immagini da testo che utilizza un segnale intrinseco di auto-convinzione, derivato dalla capacità del modello di recuperare il rumore iniettato, per ottimizzare le prestazioni in modo completamente non supervisionato e migliorare l'allineamento testo-immagine senza necessità di dati esterni o reward model.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Il paper presenta Dr. Occ, un framework di previsione dell'occupazione 3D per la guida autonoma che combina un trasformatore guidato dalla profondità per allineamento geometrico preciso e un trasformatore guidato dalle regioni basato su esperti misti per gestire le variazioni semantiche spaziali, ottenendo risultati superiori rispetto allo stato dell'arte sul benchmark Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Il paper presenta FreeAct, un nuovo framework di quantizzazione che supera i limiti dei metodi statici tradizionali adattando dinamicamente le trasformazioni delle attivazioni in base al tipo di token, migliorando significativamente le prestazioni dei modelli LLM multimodali e basati su diffusione.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

← Precedente Successivo →