cs.CV articoli | Gist.Science

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Il paper propone ImagiDrive, un innovativo framework end-to-end per la guida autonoma che integra un agente basato su modelli visione-linguaggio con un immaginatore di scene basato su modelli del mondo di guida, creando un ciclo unificato di immaginazione e pianificazione che supera le prestazioni degli approcci precedenti su dataset come nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Il paper introduce CineTrans, un nuovo framework basato su modelli di diffusione mascherati e un dataset specifico (Cine250K) per generare video coerenti multi-scena con transizioni cinematografiche, superando le limitazioni attuali nella sintesi video multi-shot.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Il paper propone un nuovo framework chiamato Next Visual Granularity (NVG) che genera immagini decomponendole in una sequenza strutturata di granularità visiva crescente, dai layout globali ai dettagli fini, ottenendo risultati superiori rispetto alla serie VAR sul dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Il paper presenta ARMed, un nuovo framework di apprendimento per rinforzo che mitiga il collasso semantico delle ricompense per migliorare il ragionamento medico open-ended nei modelli visione-linguaggio, ottenendo risultati superiori su sei benchmark medici.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Il paper propone un framework di apprendimento multimodale disaccoppiato che integra istologia e trascrittomica per la caratterizzazione del cancro, affrontando l'eterogeneità dei dati, l'integrazione multi-scala e la dipendenza da dati accoppiati attraverso strategie innovative di fusione, distillazione e aggregazione dei token.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Il paper propone TADSR, una rete di diffusione in un solo passo per il super-risoluzione di immagini reali che, sfruttando un encoder VAE e una funzione di perdita consapevoli del tempo, supera i limiti dei metodi esistenti a timestep fisso per ottenere prestazioni all'avanguardia e un controllo flessibile tra fedeltà e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

Il paper presenta FastAvatar, un framework feedforward unificato che utilizza un Large Gaussian Reconstruction Transformer per ricostruire rapidamente e con alta qualità modelli 3DGS da diverse fonti di dati quotidiane, permettendo un'aggiunta incrementale delle osservazioni senza sprecare i dati di input.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Il paper propone GACD, un metodo di decodifica basato sull'inferenza che utilizza gradienti di primo ordine per stimare e mitigare i bias testuali e visivi, riducendo così le allucinazioni nei modelli linguistici multimodali senza necessità di riaddestramento.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Il paper presenta RTGMFF, un innovativo framework multimodale che combina la generazione automatica di testo basata sulle regioni di interesse (ROI) con un encoder ibrido frequenza-spaziale per migliorare la diagnosi dei disturbi cerebrali tramite dati fMRI, superando le prestazioni degli attuali metodi sui benchmark ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Il paper presenta T2I-CoReBench, un benchmark completo e complesso che valuta le capacità di composizione e ragionamento dei modelli testo-immagine, rivelando che, nonostante i progressi, tali modelli faticano ancora a gestire scenari ad alta densità compositiva e, soprattutto, a inferire elementi impliciti.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Il paper presenta UniView, un modello innovativo che migliora la sintesi di nuove viste da una singola immagine unificando le caratteristiche di immagini di riferimento selezionate tramite un MLLM e integrandole attraverso un adattatore plug-and-play e un meccanismo di attenzione triplo decoupled per ridurre le distorsioni e preservare i dettagli.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Questo lavoro presenta un metodo innovativo per la stilizzazione 3D guidata dal testo che garantisce coerenza visiva e trasferimenti stilistici regionali controllati, migliorando la qualità dei risultati attraverso un meccanismo di attenzione basato su riferimento, l'uso di mappe di profondità multiple e una nuova funzione di perdita basata sulla distanza Wasserstein troncata.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

Il documento presenta LADB, un framework semi-supervisionato che utilizza ponti di diffusione allineati nello spazio latente per tradurre campioni tra domini diversi con dati parzialmente accoppiati, superando i limiti dei metodi non accoppiati e di quelli completamente supervisionati.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

Il paper introduce TrueSkin, un dataset sistematico di 7299 immagini che, utilizzato per valutare e addestrare modelli di intelligenza artificiale, dimostra come tale risorsa possa correggere i pregiudizi esistenti e migliorare significativamente sia la precisione nel riconoscimento che la fedeltà nella generazione dei toni della pelle.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Il paper presenta BWCache, un metodo senza addestramento che accelera la generazione di video tramite Diffusion Transformers sfruttando la ridondanza computazionale nei blocchi del modello per riutilizzare dinamicamente le feature intermedie, ottenendo fino a un aumento di velocità di 6 volte mantenendo la qualità visiva.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Il paper presenta Brain-HGCN, un nuovo framework di deep learning geometrico basato sulla geometria iperbolica e sul modello di Lorentz che, superando i limiti delle reti neurali euclidee, modella con alta fedeltà la gerarchia delle reti funzionali cerebrali per migliorare la classificazione dei disturbi psichiatrici.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Il paper presenta I2S, un framework leggero e in tempo reale per l'identificazione degli utenti tramite l'analisi delle pose 3D delle mani durante le interazioni uomo-oggetto in video egocentrici, ottenendo un'accuratezza del 97,52% e risultando ideale per sistemi di realtà aumentata in ambienti critici.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Il lavoro propone GeoProto, un nuovo approccio per il riconoscimento fine-granularità interpretabile che, sfruttando le mappe di diffusione e un'interpolazione di Nyström differenziabile, allinea le similarità alla geometria intrinseca delle caratteristiche visive non lineari, superando le limitazioni delle distanze euclidee e ottenendo prestazioni superiori su benchmark standard.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Il paper presenta SHINE, un framework senza addestramento che sfrutta i modelli di diffusione pre-addestrati come FLUX per realizzare composizioni di immagini fisicamente plausibili con ombre e riflessi realistici, superando le limitazioni delle tecniche esistenti e introducendo il nuovo benchmark ComplexCompo per valutare scenari complessi.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

← Precedente Successivo →