cs.CV articoli | Gist.Science

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Il paper propone un framework di apprendimento multimodale disaccoppiato che integra istologia e trascrittomica per la caratterizzazione del cancro, affrontando l'eterogeneità dei dati, l'integrazione multi-scala e la dipendenza da dati accoppiati attraverso strategie innovative di fusione, distillazione e aggregazione dei token.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Il paper propone TADSR, una rete di diffusione in un solo passo per il super-risoluzione di immagini reali che, sfruttando un encoder VAE e una funzione di perdita consapevoli del tempo, supera i limiti dei metodi esistenti a timestep fisso per ottenere prestazioni all'avanguardia e un controllo flessibile tra fedeltà e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

Il paper presenta FastAvatar, un framework feedforward unificato che utilizza un Large Gaussian Reconstruction Transformer per ricostruire rapidamente e con alta qualità modelli 3DGS da diverse fonti di dati quotidiane, permettendo un'aggiunta incrementale delle osservazioni senza sprecare i dati di input.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Il paper propone GACD, un metodo di decodifica basato sull'inferenza che utilizza gradienti di primo ordine per stimare e mitigare i bias testuali e visivi, riducendo così le allucinazioni nei modelli linguistici multimodali senza necessità di riaddestramento.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Il paper presenta RTGMFF, un innovativo framework multimodale che combina la generazione automatica di testo basata sulle regioni di interesse (ROI) con un encoder ibrido frequenza-spaziale per migliorare la diagnosi dei disturbi cerebrali tramite dati fMRI, superando le prestazioni degli attuali metodi sui benchmark ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Il paper presenta T2I-CoReBench, un benchmark completo e complesso che valuta le capacità di composizione e ragionamento dei modelli testo-immagine, rivelando che, nonostante i progressi, tali modelli faticano ancora a gestire scenari ad alta densità compositiva e, soprattutto, a inferire elementi impliciti.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Il paper presenta UniView, un modello innovativo che migliora la sintesi di nuove viste da una singola immagine unificando le caratteristiche di immagini di riferimento selezionate tramite un MLLM e integrandole attraverso un adattatore plug-and-play e un meccanismo di attenzione triplo decoupled per ridurre le distorsioni e preservare i dettagli.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Questo lavoro presenta un metodo innovativo per la stilizzazione 3D guidata dal testo che garantisce coerenza visiva e trasferimenti stilistici regionali controllati, migliorando la qualità dei risultati attraverso un meccanismo di attenzione basato su riferimento, l'uso di mappe di profondità multiple e una nuova funzione di perdita basata sulla distanza Wasserstein troncata.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

Il documento presenta LADB, un framework semi-supervisionato che utilizza ponti di diffusione allineati nello spazio latente per tradurre campioni tra domini diversi con dati parzialmente accoppiati, superando i limiti dei metodi non accoppiati e di quelli completamente supervisionati.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

Il paper introduce TrueSkin, un dataset sistematico di 7299 immagini che, utilizzato per valutare e addestrare modelli di intelligenza artificiale, dimostra come tale risorsa possa correggere i pregiudizi esistenti e migliorare significativamente sia la precisione nel riconoscimento che la fedeltà nella generazione dei toni della pelle.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Il paper presenta BWCache, un metodo senza addestramento che accelera la generazione di video tramite Diffusion Transformers sfruttando la ridondanza computazionale nei blocchi del modello per riutilizzare dinamicamente le feature intermedie, ottenendo fino a un aumento di velocità di 6 volte mantenendo la qualità visiva.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Il paper presenta Brain-HGCN, un nuovo framework di deep learning geometrico basato sulla geometria iperbolica e sul modello di Lorentz che, superando i limiti delle reti neurali euclidee, modella con alta fedeltà la gerarchia delle reti funzionali cerebrali per migliorare la classificazione dei disturbi psichiatrici.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Il paper presenta I2S, un framework leggero e in tempo reale per l'identificazione degli utenti tramite l'analisi delle pose 3D delle mani durante le interazioni uomo-oggetto in video egocentrici, ottenendo un'accuratezza del 97,52% e risultando ideale per sistemi di realtà aumentata in ambienti critici.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Il lavoro propone GeoProto, un nuovo approccio per il riconoscimento fine-granularità interpretabile che, sfruttando le mappe di diffusione e un'interpolazione di Nyström differenziabile, allinea le similarità alla geometria intrinseca delle caratteristiche visive non lineari, superando le limitazioni delle distanze euclidee e ottenendo prestazioni superiori su benchmark standard.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Il paper presenta SHINE, un framework senza addestramento che sfrutta i modelli di diffusione pre-addestrati come FLUX per realizzare composizioni di immagini fisicamente plausibili con ombre e riflessi realistici, superando le limitazioni delle tecniche esistenti e introducendo il nuovo benchmark ComplexCompo per valutare scenari complessi.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Il paper introduce QuadGPT, il primo framework autoregressivo che genera mesh quadrate in modo end-to-end superando i limiti delle pipeline di conversione da triangoli grazie a una tokenizzazione unificata e a un affinamento tramite Reinforcement Learning.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Il paper presenta DistillKac, un generatore di immagini ad alta velocità che sfrutta l'equazione delle onde smorzata e la rappresentazione stocastica di Kac per garantire un trasporto di massa probabilistica a velocità finita, permettendo così la generazione di campioni di alta qualità con un numero ridotto di valutazioni della funzione.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

← Precedente Successivo →