cs.CV articoli | Gist.Science

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Il paper presenta I2S, un framework leggero e in tempo reale per l'identificazione degli utenti tramite l'analisi delle pose 3D delle mani durante le interazioni uomo-oggetto in video egocentrici, ottenendo un'accuratezza del 97,52% e risultando ideale per sistemi di realtà aumentata in ambienti critici.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Il lavoro propone GeoProto, un nuovo approccio per il riconoscimento fine-granularità interpretabile che, sfruttando le mappe di diffusione e un'interpolazione di Nyström differenziabile, allinea le similarità alla geometria intrinseca delle caratteristiche visive non lineari, superando le limitazioni delle distanze euclidee e ottenendo prestazioni superiori su benchmark standard.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Il paper presenta SHINE, un framework senza addestramento che sfrutta i modelli di diffusione pre-addestrati come FLUX per realizzare composizioni di immagini fisicamente plausibili con ombre e riflessi realistici, superando le limitazioni delle tecniche esistenti e introducendo il nuovo benchmark ComplexCompo per valutare scenari complessi.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Il paper introduce QuadGPT, il primo framework autoregressivo che genera mesh quadrate in modo end-to-end superando i limiti delle pipeline di conversione da triangoli grazie a una tokenizzazione unificata e a un affinamento tramite Reinforcement Learning.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Il paper presenta DistillKac, un generatore di immagini ad alta velocità che sfrutta l'equazione delle onde smorzata e la rappresentazione stocastica di Kac per garantire un trasporto di massa probabilistica a velocità finita, permettendo così la generazione di campioni di alta qualità con un numero ridotto di valutazioni della funzione.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Il lavoro presenta NeuroAdapter, un framework di decodifica visiva che condiziona direttamente i modelli di diffusione latente sulle rappresentazioni cerebrali per ottenere ricostruzioni competitive e trasparenti, integrando il nuovo metodo interpretativo IBBI per analizzare come diverse aree corticali influenzano il processo generativo.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Il paper presenta DiffInk, il primo framework Transformer basato su diffusione latente per la generazione di intere righe di scrittura online, che combina un nuovo autoencoder variabile (InkVAE) con regolarizzazioni per accuratezza dei glifi e stile, e un modello di diffusione (InkDiT) per produrre traiettorie realistiche, efficienti e strutturalmente coerenti.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Il paper presenta SMART-R1, un nuovo paradigma di affinamento tramite rinforzo di stile R1 che, combinando ottimizzazione della politica orientata alle metriche e una strategia di addestramento iterativa "SFT-RFT-SFT", supera le attuali limitazioni nella simulazione del traffico multi-agente raggiungendo le prestazioni più avanzate sul dataset Waymo Open Motion.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Il paper presenta EditReward, un modello di ricompensa open-source addestrato su un nuovo dataset di preferenze umane su larga scala che supera gli attuali modelli di valutazione, consentendo la selezione di dati di addestramento di alta qualità e il miglioramento significativo dei modelli di editing di immagini.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos è un framework innovativo per il trasferimento di stile 3D che, utilizzando un'unica passata di inferenza su scene non posizionate, genera scene Gaussiane stilizzate con coerenza visiva e fedeltà geometrica senza necessità di ottimizzazione per scena o pose precalcolate.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Il paper propone C $^3$ B, un nuovo benchmark multiculturale, multitask e multilingue basato sui fumetti, progettato per valutare e migliorare le capacità di consapevolezza culturale dei Modelli Linguistici Multimodali (MLLM) attraverso compiti di difficoltà progressiva che evidenziano un significativo divario rispetto alle prestazioni umane.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Il paper presenta LVTINO, il primo risolutore inverso zero-shot per il restauro video ad alta definizione che sfrutta i Video Consistency Models per garantire coerenza temporale e alta qualità ricostruttiva con elevata efficienza computazionale, superando i limiti degli approcci basati su modelli immagine applicati fotogramma per fotogramma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Il paper presenta DragFlow, un nuovo framework che supera i limiti delle tecniche di editing basate su punti sfruttando i potenti prior del modello DiT FLUX attraverso una supervisione basata su regioni, trasformazioni affini e adattatori di personalizzazione, ottenendo risultati state-of-the-art su benchmark specifici.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Il paper presenta ChainMPQ, un metodo senza addestramento che riduce le allucinazioni relazionali nei modelli visione-linguaggio generando catene di ragionamento intercalate tra testo e immagini guidate da domande multi-prospettica.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Il paper presenta il VA-Adapter, un adattatore visione-azione che integra i modelli fondazionali degli ultrasuoni per guidare le sonde ecocardiografiche inferendo l'anatomia cardiaca individuale dalle sequenze storico-azioni, superando le sfide della variabilità anatomica con una frazione dei parametri di addestramento rispetto ai modelli esistenti.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Il paper introduce TTOM, un framework senza addestramento che migliora la generazione video composita allineando i modelli fondazionali video ai layout spaziotemporali tramite ottimizzazione e memorizzazione in tempo di test, ottenendo risultati superiori su benchmark come T2V-CompBench e Vbench.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

Il paper introduce i "splattable neural primitives", una nuova rappresentazione volumetrica che combina l'espressività dei modelli neurali con l'efficienza dello splatting, permettendo di ottenere la stessa qualità e velocità del 3D Gaussian Splatting utilizzando dieci volte meno primitive e sei volte meno parametri.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

← Precedente Successivo →

cs.CV