cs.CV articoli | Gist.Science

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Il paper presenta VisionCreator, un modello agenziale nativo per la generazione visiva che unifica comprensione, pensiero, pianificazione e creazione attraverso un framework end-to-end addestrato con dati sintetici di alta qualità e tecniche di specializzazione progressiva, dimostrando prestazioni superiori rispetto a modelli proprietari più grandi.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

Il paper propone ReCo-Diff, un framework di campionamento deterministico condizionato ai residui che migliora la ricostruzione CT a viste sparse correggendo continuamente le previsioni basandosi sulla differenza tra l'immagine predetta e i dati misurati, superando così l'instabilità e l'accumulo di errori delle strategie esistenti.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

Il paper presenta FiDeSR, un framework di super-risoluzione basato su diffusione in un singolo passo che garantisce alta fedeltà e conservazione dei dettagli attraverso una strategia di pesatura adattiva, potenziatori di frequenza e un raffinamento del rumore residuale, ottenendo risultati superiori rispetto ai metodi esistenti.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Il paper presenta ShareVerse, un framework di generazione video multi-agente che, grazie a un nuovo dataset su CARLA, una strategia di concatenazione spaziale e blocchi di attenzione incrociata, permette la modellazione coerente di un mondo condiviso con interazioni tra agenti e consistenza geometrica multi-vista.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Il modello di deep learning visivo-linguistico GTDoctor e il sistema software GTDiagnosis migliorano significativamente l'efficienza e l'accuratezza della diagnosi patologica delle malattie trofoblastiche gestazionali, riducendo i tempi di analisi e aumentando la coerenza diagnostica rispetto ai metodi tradizionali.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Il documento propone MiM-DiT, un quadro unificato di ripristino delle immagini che integra un'architettura a due livelli di Mixture-of-Experts (MoE) all'interno di un modello di diffusione preaddestrato per gestire in modo adattivo sia i principali tipi di degradazione che le loro variazioni fini-grana, superando così le prestazioni degli approcci attuali.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Il paper presenta CoR-Painter, un nuovo framework che supera i limiti delle attuali generazioni di immagini autoregressive introducendo un ragionamento vincolato ("Come") per guidare la descrizione dettagliata ("Cosa"), risolvendo così problemi di ambiguità spaziale e ottenendo prestazioni all'avanguardia.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

Il paper propone TenExp, un framework di ricerca della struttura di decomposizione tensoriale basato su mixture-of-experts che, superando i limiti dei metodi attuali, seleziona in modo non supervisionato sia decomposizioni singole che miscele ottimali, garantendo teoricamente e sperimentalmente una migliore capacità di approssimazione.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Il paper propone SFDE, una rete neurale leggera che migliora la geo-localizzazione cross-view integrando rappresentazioni complementari dei domini spaziale e frequenziale per superare le asimmetrie geometriche e le inconsistenze testurali, ottenendo prestazioni superiori allo stato dell'arte.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Questo lavoro introduce RSHBench, un benchmark per diagnosticare le allucinazioni nei modelli multimodali per il telerilevamento, e propone RADAR, un metodo di inferenza senza addestramento che riduce tali errori sfruttando l'attenzione intrinseca del modello per migliorare il ragionamento locale.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Il paper propone HiLoRA, un framework gerarchico di Low-Rank Adaptation per l'apprendimento federato personalizzato che, posizionando adattatori a tre livelli (radice, cluster e foglia) e utilizzando un meccanismo di clustering adattivo basato sulla similarità dei sottospazi, migliora l'apprendimento di rappresentazioni condivise e l'adattamento ai clienti non visti superando i limiti dei metodi LoRA esistenti.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Il paper presenta UNICORN, un benchmark pubblico e unificato progettato per valutare in modo standardizzato e riproducibile i modelli fondazionali medici attraverso diverse modalità di imaging e compiti, utilizzando un dataset multiculturale e un nuovo punteggio aggregato per facilitare il confronto delle prestazioni.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

Il paper presenta R3GW, un metodo innovativo che separa il cielo dallo sfondo e combina il rendering basato sulla fisica con le 3D Gaussian Splatting per ricostruire e riluciare realisticamente scene esterne catturate in condizioni di illuminazione non controllate.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Il paper presenta NOVA, un nuovo framework per l'editing video senza dati appaiati che combina una guida semantica tramite fotogrammi chiave modificati con la sintesi densa delle informazioni originali, utilizzando una strategia di addestramento basata sulla simulazione di degradazione per garantire alta fedeltà e coerenza temporale.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Questo studio valuta le capacità dei modelli linguistici visivi nel riconoscimento strutturato di edizioni critiche greche antiche, introducendo un nuovo corpus sintetico e un benchmark reale che dimostrano come, nonostante le attuali limitazioni, il modello Qwen3VL-8B raggiunga prestazioni all'avanguardia con un tasso di errore dei caratteri mediano dell'1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Il paper propone ScribeTokens, un metodo di tokenizzazione a vocabolario fisso che scompone l'inchiostro digitale in passi unitari, superando le rappresentazioni vettoriali sia nella generazione che nel riconoscimento del testo scritto a mano e migliorando ulteriormente le prestazioni grazie a una strategia di pre-addestramento auto-supervisionato.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Questo articolo presenta le GaussDerResNets, una rete neurale residua provatamente invariante alla scala costruita con blocchi di derivate gaussiane, che dimostra eccellenti proprietà di generalizzazione su scale diverse e riduce i parametri grazie alle convoluzioni depthwise-separabili.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Lo studio rivela che, mentre le informazioni sui nodi e sulla struttura globale dei diagrammi sono rappresentate linearmente già nell'encoder visivo dei modelli LVLM, le informazioni sugli archi emergono solo successivamente nei token testuali, spiegando le difficoltà di questi modelli nella comprensione delle relazioni direzionali.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Il lavoro presenta un metodo di campionamento dell'importanza guidato da prior multimodali per lo Splatting Gaussiano 3D gerarchico, che fonde residui fotometrici, semantiche e geometrie per migliorare la sintesi di nuove viste in scenari con viste sparse, ottenendo risultati all'avanguardia e riducendo l'overfitting.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark è un framework di filigrana scalabile e in-generazione per la diffusione video che risolve i limiti computazionali e di robustezza delle soluzioni esistenti consentendo l'estrazione cieca e garantendo alta precisione anche in presenza di disturbi temporali.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

← Precedente Successivo →