cs.CV articoli | Gist.Science

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Il paper presenta SemanticDialect, un metodo di quantizzazione mista semantica che ottimizza la generazione video su dispositivi edge riducendo i costi computazionali e preservando la coerenza temporale e semantica attraverso la selezione dinamica di formati per blocco, la decomposizione delle attivazioni e l'assegnazione di dialetti basata sulla correlazione semantica.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Il paper propone StegaFFD, un framework che protegge la privacy dei dati facciali nascondendoli all'interno di immagini naturali tramite steganografia e rilevando le falsificazioni direttamente in tale dominio, superando i limiti delle tradizionali tecniche di offuscamento che compromettono l'accuratezza dei modelli di rilevamento.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Il paper presenta LLandMark, un framework modulare multi-agente che integra agenti specializzati per il rilevamento di punti di riferimento, la generazione autonoma di query visive e il riconoscimento OCR avanzato, al fine di migliorare il recupero interattivo di video multimodali in contesti vietnamiti complessi.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Il paper presenta MVD-HuGaS, un metodo che genera rendering 3D liberi da una singola immagine umana ottimizzando la coerenza geometrica e di aspetto tramite un modello di diffusione multi-vista, un modulo di allineamento per la stima della posa e una correzione delle distorsioni facciali, ottenendo prestazioni all'avanguardia.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Il paper introduce 3D-DRES, un nuovo compito di segmentazione 3D basato su espressioni di riferimento dettagliate, supportato dal dataset DetailRefer e dal modello baseline DetailBase, che migliorano la comprensione visivo-linguistica fine-granulare e le prestazioni sui benchmark tradizionali.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

Il paper propone ProGIC, un codec di compressione immagini generativa progressivo e leggero basato sulla quantizzazione vettoriale residua, che offre un'alta qualità percettiva, trasmissione flessibile e un'efficienza computazionale superiore rispetto ai metodi esistenti.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Il documento presenta l'HBSN, una nuova architettura di deep learning che calcola la firma di Beltrami armonica per estrarre informazioni sulla forma invarianti, integrandola efficacemente come modulo di priorità geometrica nei modelli di segmentazione per migliorarne le prestazioni.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Il paper presenta "Articulation in Motion" (AiM), un nuovo framework che ricostruisce, segmenta e analizza la mobilità di oggetti articolati a partire da un video di interazione e una scansione iniziale, utilizzando una rappresentazione a doppi Gaussiani e un'analisi RANSAC sequenziale per determinare automaticamente il numero di parti e le loro cinematiche senza richiedere conoscenze a priori.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

Il paper presenta HDINO, un rilevatore di oggetti open-vocabulary efficiente che, grazie a una strategia di formazione in due fasi e senza dipendere da dati curati manualmente o da estrazioni di caratteristiche pesanti, supera le prestazioni di metodi esistenti come Grounding DINO e T-Rex2 sul dataset COCO.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

Il modello fondazionale GloPath, addestrato su oltre un milione di glomeruli, supera gli stati dell'arte nel rilevamento delle lesioni glomerulari e scopre nuove associazioni clinicopatologiche, rappresentando un passo significativo verso l'intelligenza artificiale traslabile in nefropatologia.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

Il paper introduce TC-Padé, un metodo di accelerazione per i modelli di diffusione basato su un'approssimazione di Padé che, superando i limiti delle tecniche di caching esistenti nei regimi a basso numero di passi, garantisce una generazione di immagini e video di alta qualità con un'accelerazione significativa mantenendo la coerenza della traiettoria.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Il paper propone un framework semi-supervisionato innovativo che integra una "Proportion Loss" per mitigare il bias delle classi maggioritarie e migliorare le prestazioni su dataset sbilanciati, ottenendo risultati superiori rispetto ai metodi esistenti su CIFAR-10 a coda lunga.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Questo articolo propone un metodo semi-supervisionato che utilizza dati non etichettati per migliorare l'adattamento few-shot dei modelli visione-linguaggio in ambito medico, riducendo la necessità di annotazioni esperte del 50% in scenari con pochi esempi.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Questo paper propone una pipeline di sintesi anomala basata su modelli fondazionali (FMAS) e un modulo di attenzione nel dominio delle ondelette (WDAM) per migliorare l'efficienza e la sensibilità del rilevamento di anomalie industriali, ottenendo risultati significativi sui dataset MVTec AD e VisA.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

Il paper presenta TagaVLM, un framework end-to-end che integra strutture topologiche esplicitamente in un modello VLM tramite meccanismi di attenzione e prompt specifici, consentendo un ragionamento globale sulle azioni e ottenendo prestazioni all'avanguardia nel benchmark R2R, dimostrando che miglioramenti mirati su modelli open-source sono più efficaci del semplice scaling della dimensione del modello per il ragionamento spaziale embodied.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Questo lavoro propone un metodo efficiente per la rilevazione di anomalie non supervisionata che utilizza un modello autoregressivo spaziale parametrico sui embedding di DINOv3 per catturare le dipendenze contestuali, eliminando la necessità di costose banche di memoria e riducendo significativamente il tempo e la memoria di inferenza.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

Il paper presenta il dataset Dresden (D4D), una risorsa composta da oltre 300.000 fotogrammi e 369 nuvole di punti derivanti da sessioni chirurgiche su cadaveri suini, che fornisce video endoscopici e geometria strutturata di alta qualità per valutare e sviluppare metodi di ricostruzione 4D, SLAM non rigido e stima della profondità in scenari chirurgici addominali realistici.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

Il paper introduce VIRGi, un metodo innovativo che permette di modificare rapidamente e fotorealisticamente i colori di scene ricostruite con 3D Gaussian Splatting, preservando gli effetti dipendenti dalla vista come i riflessi speculari, attraverso un'architettura che separa le componenti di colore e un addestramento multi-vista che consente l'editing in tempo reale basandosi su una singola immagine modificata dall'utente.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Il paper propone l'Ultra Resolution Geometry Transformer (URGT), un modello basato su un trasformatore multi-patch che, partendo da un'immagine monoculare ad alta risoluzione, unisce stime di profondità e normali superficiali con coerenza globale e dettagli locali, ottenendo risultati all'avanguardia e una forte generalizzazione cross-dominio.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

Il paper presenta BRIGHT, il primo modello fondazionale collaborativo generalista-specialista progettato specificamente per la patologia mammaria e addestrato su un vasto dataset multicentrico, che dimostra prestazioni superiori rispetto ai modelli generalisti esistenti su una vasta gamma di compiti clinici, validando così un nuovo paradigma scalabile per lo sviluppo di modelli specifici per organi.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

← Precedente Successivo →