cs.CV articoli | Gist.Science

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Il paper presenta NVB-Face, un metodo innovativo a stadio singolo che genera immagini di volti da nuove prospettive direttamente da un'immagine facciale degradata, superando le limitazioni e le incoerenze dei tradizionali approcci a due stadi basati sulla restaurazione preliminare.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

Il paper propone il framework PEFD, che sfrutta l'equivarianza prospettica e l'adattamento di modelli fondazionali pre-addestrati per eseguire il demosaicing multispettrale ad alta fedeltà senza bisogno di dati di verità fondamentale.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

Il paper presenta MixerCSeg, un'architettura efficiente per la segmentazione delle crepe che integra percorsi CNN, Transformer e Mamba all'interno di un singolo encoder, raggiungendo prestazioni all'avanguardia con un basso costo computazionale grazie a innovazioni come TransMixer, DEGConv e SRF.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

Il paper presenta TIMI, un framework senza addestramento per la generazione multi-istanza da immagine a 3D che garantisce un'elevata fedeltà spaziale attraverso i moduli ISG e SGU, superando i limiti di costo e prestazioni dei metodi basati sul fine-tuning.

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Il paper propone AOT, un metodo senza addestramento che riduce l'inefficienza dei modelli linguistici video ottimizzando la compressione dei token tramite l'aggregazione contestuale locale e globale basata sul trasporto ottimale.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

Il paper presenta UniTalking, un framework di diffusione unificato ed end-to-end che genera ritratti parlanti ad alta fedeltà con sincronizzazione labiale e clonazione vocale personalizzata, colmando il divario tra modelli chiusi e soluzioni open-source attraverso l'uso di blocchi Transformer multimodali.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

Il paper introduce SeaVIS, il primo framework online per la segmentazione di istanze audio-visive che, grazie a un modulo di fusione causale e a una strategia di apprendimento contrastivo guidato dall'audio, risolve i limiti dei metodi offline permettendo l'identificazione e il tracciamento in tempo reale degli oggetti che emettono suoni.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

Il paper presenta LinkVLA, una nuova architettura per la guida autonoma che unifica la comprensione e la generazione di linguaggio e azioni attraverso un codice condiviso e un obiettivo di comprensione ausiliario, migliorando l'allineamento semantico e riducendo i tempi di inferenza del 86% grazie a un metodo di generazione a due stadi.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Questo studio dimostra che l'utilità del mescolamento globale dei token nel ripristino delle immagini MRI è dipendente dal compito specifico, risultando meno vantaggiosa quando la fisica dell'acquisizione e i vincoli di consistenza dei dati impongono già accoppiamenti globali, mentre si rivela essenziale per compiti come la rimozione del rumore eteroschedastico spaziale.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Il documento presenta il Deepfake Forensics Adapter (DFA), un innovativo framework a doppio flusso che integra modelli fondazionali visione-linguaggio con analisi forense mirata per rilevare deepfake con capacità di generalizzazione superiore rispetto ai metodi esistenti, ottenendo risultati all'avanguardia su benchmark critici come DFDC.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Il paper introduce VidDoS, il primo framework universale di attacco Denial-of-Service progettato specificamente per i modelli linguistici basati su video, che sfrutta trigger indipendenti dall'istanza per indurre un'esplosione dei token e latenze critiche, compromettendo gravemente la sicurezza delle applicazioni in tempo reale come la guida autonoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

Il paper propone MM-Mem, un'architettura di memoria multimodale piramidale ispirata alla teoria della traccia fuzzy che, attraverso un collo di bottiglia dell'informazione semantica e una strategia di recupero adattiva, risolve le limitazioni dei modelli attuali nell'analisi video a lungo termine bilanciando compressione e conservazione delle informazioni rilevanti.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

Il paper presenta UltraStar, un metodo innovativo che supera i limiti delle tecniche esistenti per la navigazione automatica delle sonde ecocardiografiche modellando la storia delle scansioni come un grafo a stella semantico-orientato per un posizionamento globale robusto, riducendo così l'impatto dei percorsi rumorosi e migliorando le prestazioni su sequenze lunghe.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

Il paper presenta WildCross, un nuovo benchmark cross-modale su larga scala composto da oltre 476.000 frame RGB annotati e dati LiDAR sincronizzati, progettato per colmare il divario nella ricerca sulla localizzazione e stima della profondità metrica in ambienti naturali non strutturati.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Il paper introduce SCATR, un nuovo modello di tracking basato su LiDAR che colma il divario prestazionale rispetto ai metodi tradizionali riducendo le falsi negativi grazie a due strategie di addestramento innovative: l'assegnazione di una seconda chance e l'abbandono delle query di traccia.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

Il paper presenta ATA, un framework di ragionamento implicito senza addestramento che migliora l'efficienza e il successo dei modelli Vision-Language-Action integrando strategie guidate dall'attenzione e dall'azione per affinare l'input visivo senza richiedere annotazioni aggiuntive.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

Il paper presenta RadioGS, un nuovo framework di rendering inverso basato su surfel gaussiani che introduce la coerenza radiometrica per migliorare la modellazione dell'illuminazione indiretta e abilitare un ricilluminamento efficiente e fisicamente accurato.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Il paper introduce PhotoBench, il primo benchmark basato su album personali autentici che sposta il paradigma del recupero fotografico dalla semplice corrispondenza visiva al ragionamento multimodale guidato dall'intento, rivelando le limitazioni attuali dei modelli di embedding unificati e la necessità di sistemi agenziali più robusti.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Questo studio introduce un quadro teorico basato sulla teoria della distorsione del tasso per analizzare i compromessi tra accuratezza e robustezza nella visione artificiale e biologica, rivelando che, sebbene entrambi i sistemi seguano principi di compressione, gli esseri umani mostrano trade-off più flessibili rispetto alle reti neurali profonde, che operano in regimi più rigidi e fragili.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Il paper propone il framework DTI-UIE, una soluzione di miglioramento delle immagini subacquee ispirata ai compiti a valle che, attraverso una rete neurale a due rami e un dataset costruito automaticamente, ottimizza le prestazioni di riconoscimento automatico (come segmentazione e rilevamento oggetti) superando i limiti dei metodi tradizionali focalizzati sulla percezione umana.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

← Precedente Successivo →