cs.CV articoli | Gist.Science

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Il paper presenta InfinityStory, un nuovo framework, dataset e modello progettati per generare video narrativi di lunga durata con coerenza visiva globale, mantenendo l'identità dei personaggi e garantendo transizioni fluide tra inquadrature complesse con più soggetti.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

Il paper propone SCFlowFR, un metodo di ripristino facciale in un singolo passo basato su un flusso di accoppiamento potenziato da scorciatoie che modella le dipendenze tra dati a bassa e alta qualità per garantire traiettorie lineari e inferenza rapida senza compromettere la qualità.

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Questa tesi presenta un quadro di imaging sul campo basato sulla visione artificiale per la caratterizzazione morfologica degli aggregati da costruzione, sviluppando algoritmi avanzati di segmentazione e ricostruzione 3D che superano i limiti dei metodi tradizionali permettendo l'analisi sia di singole particelle che di ammassi complessi in scenari reali.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Il paper introduce InEdit-Bench, il primo benchmark dedicato alla valutazione della capacità dei modelli generativi multimodali di ragionare su percorsi logici intermedi nell'editing di immagini, rivelando attraverso una valutazione estesa le significative carenze attuali dei modelli esistenti nel gestire scenari complessi che richiedono dinamicità e coerenza causale.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Machine Pareidolia: Protecting Facial Image with Emotional Editing

Il paper presenta MAP, un nuovo metodo di protezione della privacy facciale che utilizza modifiche emotive per camuffare le identità originali, superando i limiti delle tecniche tradizionali in termini di trasferibilità, qualità percettiva e adattabilità a diversi gruppi demografici e scenari fotografici.

Binh M. Le, Simon S. Woo2026-03-05🤖 cs.LG

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Il paper presenta EvoPrune, un metodo di pruning dei token visivi eseguito durante la fase di codifica nei MLLM che, riducendo i costi computazionali, garantisce un raddoppio della velocità di inferenza con una minima perdita di prestazioni.

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Il paper propone un modello di segmentazione dei polipi che integra rappresentazioni in scala di grigi e RGB attraverso un'interazione coerente nel dominio delle ondelette, sfruttando la maggiore contrasto dei bordi nella scala di grigi per migliorare la precisione nella localizzazione dei confini e superare le limitazioni dei metodi convenzionali basati solo su RGB.

Haesung Oh, Jaesung Lee2026-03-05💻 cs

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

Il paper propone l'ERK-Guid, un nuovo metodo di campionamento per modelli di diffusione che utilizza l'errore locale di troncamento generato dai solutori come segnale di guida per correggere le regioni rigide e migliorare la qualità del campionamento, superando i metodi esistenti su dataset come ImageNet.

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

Il paper presenta MPFlow, un framework di ricostruzione MRI zero-shot basato su flow matching che, sfruttando una strategia di pre-addestramento auto-supervisionato per allineare le caratteristiche tra diverse modalità, riduce le allucinazioni anatomiche e accelera il campionamento rispetto ai metodi basati su diffusione.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Questo studio identifica e quantifica il "Order-to-Space Bias" (OTS), un pregiudizio sistematico nei modelli di generazione di immagini in cui l'ordine di menzione delle entità nel testo determina erroneamente il layout spaziale, proponendo al contempo un benchmark e strategie di intervento per mitigare tale fenomeno preservando la qualità della generazione.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

Questo articolo presenta una nuova architettura per la segmentazione del vetro che fonde caratteristiche visive generali estratte da un modello fondazionale DINOv3 congelato e caratteristiche specifiche apprese tramite un modello Swin supervisionato, ottenendo risultati all'avanguardia su quattro dataset comuni.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

Il paper propone QD-PCQA, un nuovo framework di adattamento di dominio consapevole della qualità che migliora la generalizzazione nella valutazione della qualità dei nuvoli di punti senza riferimento, superando i limiti delle metodologie esistenti grazie a strategie di allineamento delle caratteristiche ponderate per il ranking e di aumento guidato dalla qualità.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

Il paper presenta PROSPECT, un agente di navigazione visione-linguaggio unificato e in streaming che combina l'encoding spaziale CUT3R e le caratteristiche semantiche SigLIP con un ramo predittivo latente per raggiungere prestazioni all'avanguardia nella navigazione a lungo raggio e nel deployment robotico reale.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

Il paper presenta DAGE, un'architettura transformer a doppio flusso che disaccoppia la coerenza globale dai dettagli fini per stimolare geometria e pose di camera ad alta risoluzione da input multi-vista, ottenendo nuovi risultati allo stato dell'arte con costi di inferenza pratici.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

Il paper propone WSI-INR, un innovativo framework privo di patch basato su Rappresentazioni Neurali Implicite che modella le immagini interostrato come funzioni continue per ottenere una segmentazione delle lesioni spazialmente coerente e robusta alle variazioni di risoluzione, superando i limiti dei metodi tradizionali a patch.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

Il paper presenta KFRA, un agente di ragionamento basato sulla conoscenza che supera i limiti degli approcci chiusi per l'analisi visiva fine-granulare in scenari aperti, integrando rilevamento, recupero web e localizzazione discriminativa in un ciclo di ragionamento interpretable che ha dimostrato prestazioni superiori su un nuovo benchmark dedicato.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

Il paper presenta DriveMVS, un innovativo framework stereo multi-vista che sfrutta le osservazioni LiDAR come prompt geometrici e un decoder spaziotemporale per ottenere una stima della profondità metrica precisa, coerente nel tempo e generalizzabile, risolvendo le sfide chiave per la percezione nella guida autonoma.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Questo lavoro propone un framework innovativo per la rilevazione di oggetti piccoli in contesti complessi, che integra un downsampling con ondelette di Haar residue, una modellazione delle relazioni globali e un'attenzione ibrida cross-scala per preservare i dettagli fini e migliorare l'accuratezza della localizzazione, ottenendo risultati superiori rispetto agli stati dell'arte sulla benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Il paper presenta TAP, un framework di accelerazione senza addestramento per i modelli di diffusione che, sfruttando una strategia di "sonda e selezione" adattiva a livello di token, riduce significativamente i tempi di inferenza mantenendo la qualità generativa.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Questo paper propone un approccio di adattamento durante il test a lungo termine che utilizza un meccanismo di reset adattivo e selettivo, combinato con un regolarizzatore consapevole dell'importanza, per prevenire il collasso del modello e preservare la conoscenza acquisita senza ricorrere a reset periodici dannosi.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

← Precedente Successivo →