cs.CV articoli | Gist.Science

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Il paper introduce QuadGPT, il primo framework autoregressivo che genera mesh quadrate in modo end-to-end superando i limiti delle pipeline di conversione da triangoli grazie a una tokenizzazione unificata e a un affinamento tramite Reinforcement Learning.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Il paper presenta DistillKac, un generatore di immagini ad alta velocità che sfrutta l'equazione delle onde smorzata e la rappresentazione stocastica di Kac per garantire un trasporto di massa probabilistica a velocità finita, permettendo così la generazione di campioni di alta qualità con un numero ridotto di valutazioni della funzione.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Il lavoro presenta NeuroAdapter, un framework di decodifica visiva che condiziona direttamente i modelli di diffusione latente sulle rappresentazioni cerebrali per ottenere ricostruzioni competitive e trasparenti, integrando il nuovo metodo interpretativo IBBI per analizzare come diverse aree corticali influenzano il processo generativo.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Il paper presenta DiffInk, il primo framework Transformer basato su diffusione latente per la generazione di intere righe di scrittura online, che combina un nuovo autoencoder variabile (InkVAE) con regolarizzazioni per accuratezza dei glifi e stile, e un modello di diffusione (InkDiT) per produrre traiettorie realistiche, efficienti e strutturalmente coerenti.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Il paper presenta SMART-R1, un nuovo paradigma di affinamento tramite rinforzo di stile R1 che, combinando ottimizzazione della politica orientata alle metriche e una strategia di addestramento iterativa "SFT-RFT-SFT", supera le attuali limitazioni nella simulazione del traffico multi-agente raggiungendo le prestazioni più avanzate sul dataset Waymo Open Motion.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Il paper presenta EditReward, un modello di ricompensa open-source addestrato su un nuovo dataset di preferenze umane su larga scala che supera gli attuali modelli di valutazione, consentendo la selezione di dati di addestramento di alta qualità e il miglioramento significativo dei modelli di editing di immagini.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos è un framework innovativo per il trasferimento di stile 3D che, utilizzando un'unica passata di inferenza su scene non posizionate, genera scene Gaussiane stilizzate con coerenza visiva e fedeltà geometrica senza necessità di ottimizzazione per scena o pose precalcolate.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Il paper propone C $^3$ B, un nuovo benchmark multiculturale, multitask e multilingue basato sui fumetti, progettato per valutare e migliorare le capacità di consapevolezza culturale dei Modelli Linguistici Multimodali (MLLM) attraverso compiti di difficoltà progressiva che evidenziano un significativo divario rispetto alle prestazioni umane.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Il paper presenta LVTINO, il primo risolutore inverso zero-shot per il restauro video ad alta definizione che sfrutta i Video Consistency Models per garantire coerenza temporale e alta qualità ricostruttiva con elevata efficienza computazionale, superando i limiti degli approcci basati su modelli immagine applicati fotogramma per fotogramma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Il paper presenta DragFlow, un nuovo framework che supera i limiti delle tecniche di editing basate su punti sfruttando i potenti prior del modello DiT FLUX attraverso una supervisione basata su regioni, trasformazioni affini e adattatori di personalizzazione, ottenendo risultati state-of-the-art su benchmark specifici.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Il paper presenta ChainMPQ, un metodo senza addestramento che riduce le allucinazioni relazionali nei modelli visione-linguaggio generando catene di ragionamento intercalate tra testo e immagini guidate da domande multi-prospettica.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Il paper presenta il VA-Adapter, un adattatore visione-azione che integra i modelli fondazionali degli ultrasuoni per guidare le sonde ecocardiografiche inferendo l'anatomia cardiaca individuale dalle sequenze storico-azioni, superando le sfide della variabilità anatomica con una frazione dei parametri di addestramento rispetto ai modelli esistenti.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Il paper introduce TTOM, un framework senza addestramento che migliora la generazione video composita allineando i modelli fondazionali video ai layout spaziotemporali tramite ottimizzazione e memorizzazione in tempo di test, ottenendo risultati superiori su benchmark come T2V-CompBench e Vbench.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

Il paper introduce i "splattable neural primitives", una nuova rappresentazione volumetrica che combina l'espressività dei modelli neurali con l'efficienza dello splatting, permettendo di ottenere la stessa qualità e velocità del 3D Gaussian Splatting utilizzando dieci volte meno primitive e sei volte meno parametri.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Il paper introduce LinearSR, un quadro olistico che risolve le sfide di instabilità e compromesso percezione-distorsione nell'attenzione lineare per la super-risoluzione delle immagini, offrendo per la prima volta un metodo robusto che combina qualità percettiva all'avanguardia con un'efficienza computazionale eccezionale.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Il paper presenta PHyCLIP, un modello che unifica gerarchia e composizionalità nell'apprendimento di rappresentazioni visione-linguaggio utilizzando una metrica $\ell_1$ -prodotto su fattori iperbolici, superando i limiti degli approcci a spazio singolo e migliorando le prestazioni in compiti di classificazione e recupero.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Questo articolo propone il framework CSL, un approccio di co-apprendimento unificato che risolve la sfida del riconoscimento di immagini multi-etichetta con etichette incomplete, migliorando simultaneamente l'estrazione di caratteristiche semantiche e il recupero delle etichette mancanti attraverso un meccanismo di rinforzo reciproco che supera gli stati dell'arte su dataset pubblici.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

← Precedente Successivo →

cs.CV