cs.CV articoli | Gist.Science

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Il documento propone MiM-DiT, un quadro unificato di ripristino delle immagini che integra un'architettura a due livelli di Mixture-of-Experts (MoE) all'interno di un modello di diffusione preaddestrato per gestire in modo adattivo sia i principali tipi di degradazione che le loro variazioni fini-grana, superando così le prestazioni degli approcci attuali.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Il paper presenta CoR-Painter, un nuovo framework che supera i limiti delle attuali generazioni di immagini autoregressive introducendo un ragionamento vincolato ("Come") per guidare la descrizione dettagliata ("Cosa"), risolvendo così problemi di ambiguità spaziale e ottenendo prestazioni all'avanguardia.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

Il paper propone TenExp, un framework di ricerca della struttura di decomposizione tensoriale basato su mixture-of-experts che, superando i limiti dei metodi attuali, seleziona in modo non supervisionato sia decomposizioni singole che miscele ottimali, garantendo teoricamente e sperimentalmente una migliore capacità di approssimazione.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Il paper propone SFDE, una rete neurale leggera che migliora la geo-localizzazione cross-view integrando rappresentazioni complementari dei domini spaziale e frequenziale per superare le asimmetrie geometriche e le inconsistenze testurali, ottenendo prestazioni superiori allo stato dell'arte.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Questo lavoro introduce RSHBench, un benchmark per diagnosticare le allucinazioni nei modelli multimodali per il telerilevamento, e propone RADAR, un metodo di inferenza senza addestramento che riduce tali errori sfruttando l'attenzione intrinseca del modello per migliorare il ragionamento locale.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Il paper propone HiLoRA, un framework gerarchico di Low-Rank Adaptation per l'apprendimento federato personalizzato che, posizionando adattatori a tre livelli (radice, cluster e foglia) e utilizzando un meccanismo di clustering adattivo basato sulla similarità dei sottospazi, migliora l'apprendimento di rappresentazioni condivise e l'adattamento ai clienti non visti superando i limiti dei metodi LoRA esistenti.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Il paper presenta UNICORN, un benchmark pubblico e unificato progettato per valutare in modo standardizzato e riproducibile i modelli fondazionali medici attraverso diverse modalità di imaging e compiti, utilizzando un dataset multiculturale e un nuovo punteggio aggregato per facilitare il confronto delle prestazioni.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

Il paper presenta R3GW, un metodo innovativo che separa il cielo dallo sfondo e combina il rendering basato sulla fisica con le 3D Gaussian Splatting per ricostruire e riluciare realisticamente scene esterne catturate in condizioni di illuminazione non controllate.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Il paper presenta NOVA, un nuovo framework per l'editing video senza dati appaiati che combina una guida semantica tramite fotogrammi chiave modificati con la sintesi densa delle informazioni originali, utilizzando una strategia di addestramento basata sulla simulazione di degradazione per garantire alta fedeltà e coerenza temporale.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Questo studio valuta le capacità dei modelli linguistici visivi nel riconoscimento strutturato di edizioni critiche greche antiche, introducendo un nuovo corpus sintetico e un benchmark reale che dimostrano come, nonostante le attuali limitazioni, il modello Qwen3VL-8B raggiunga prestazioni all'avanguardia con un tasso di errore dei caratteri mediano dell'1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Il paper propone ScribeTokens, un metodo di tokenizzazione a vocabolario fisso che scompone l'inchiostro digitale in passi unitari, superando le rappresentazioni vettoriali sia nella generazione che nel riconoscimento del testo scritto a mano e migliorando ulteriormente le prestazioni grazie a una strategia di pre-addestramento auto-supervisionato.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Questo articolo presenta le GaussDerResNets, una rete neurale residua provatamente invariante alla scala costruita con blocchi di derivate gaussiane, che dimostra eccellenti proprietà di generalizzazione su scale diverse e riduce i parametri grazie alle convoluzioni depthwise-separabili.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Lo studio rivela che, mentre le informazioni sui nodi e sulla struttura globale dei diagrammi sono rappresentate linearmente già nell'encoder visivo dei modelli LVLM, le informazioni sugli archi emergono solo successivamente nei token testuali, spiegando le difficoltà di questi modelli nella comprensione delle relazioni direzionali.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Il lavoro presenta un metodo di campionamento dell'importanza guidato da prior multimodali per lo Splatting Gaussiano 3D gerarchico, che fonde residui fotometrici, semantiche e geometrie per migliorare la sintesi di nuove viste in scenari con viste sparse, ottenendo risultati all'avanguardia e riducendo l'overfitting.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark è un framework di filigrana scalabile e in-generazione per la diffusione video che risolve i limiti computazionali e di robustezza delle soluzioni esistenti consentendo l'estrazione cieca e garantendo alta precisione anche in presenza di disturbi temporali.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Il paper presenta SemanticDialect, un metodo di quantizzazione mista semantica che ottimizza la generazione video su dispositivi edge riducendo i costi computazionali e preservando la coerenza temporale e semantica attraverso la selezione dinamica di formati per blocco, la decomposizione delle attivazioni e l'assegnazione di dialetti basata sulla correlazione semantica.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Il paper propone StegaFFD, un framework che protegge la privacy dei dati facciali nascondendoli all'interno di immagini naturali tramite steganografia e rilevando le falsificazioni direttamente in tale dominio, superando i limiti delle tradizionali tecniche di offuscamento che compromettono l'accuratezza dei modelli di rilevamento.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Il paper presenta LLandMark, un framework modulare multi-agente che integra agenti specializzati per il rilevamento di punti di riferimento, la generazione autonoma di query visive e il riconoscimento OCR avanzato, al fine di migliorare il recupero interattivo di video multimodali in contesti vietnamiti complessi.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Il paper presenta MVD-HuGaS, un metodo che genera rendering 3D liberi da una singola immagine umana ottimizzando la coerenza geometrica e di aspetto tramite un modello di diffusione multi-vista, un modulo di allineamento per la stima della posa e una correzione delle distorsioni facciali, ottenendo prestazioni all'avanguardia.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Il paper introduce 3D-DRES, un nuovo compito di segmentazione 3D basato su espressioni di riferimento dettagliate, supportato dal dataset DetailRefer e dal modello baseline DetailBase, che migliorano la comprensione visivo-linguistica fine-granulare e le prestazioni sui benchmark tradizionali.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

← Precedente Successivo →