cs.CV articoli | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Il paper presenta GroundCount, un framework che integra modelli di rilevamento oggetti (ODM) con modelli visione-linguaggio (VLM) per fornire un ancoraggio spaziale esplicito, riducendo significativamente le allucinazioni nel conteggio e migliorando l'accuratezza attraverso strategie di prompting che superano la fusione implicita delle feature.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Questo lavoro introduce il dataset CFD e la metrica CFM per valutare oggettivamente la fedeltà cromatica nelle immagini generate, proponendo inoltre un metodo di raffinamento senza addestramento (CFR) per correggere la tendenza dei modelli a produrre immagini eccessivamente vivide e poco realistiche.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Attraverso una collaborazione interdisciplinare tra informatici e storici dell'arte, questo studio analizza i meccanismi con cui i modelli linguistici-visivi riconoscono lo stile artistico, rivelando che la maggior parte dei concetti da essi utilizzati per le previsioni è considerata coerente e rilevante dagli esperti umani.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Il paper presenta DynVLA, un modello VLA per la guida autonoma che introduce il "Dynamics CoT", un nuovo paradigma di ragionamento che prevede la dinamica del mondo tramite token compatti e decouplati per migliorare la qualità decisionale rispetto ai metodi basati su testo o immagini.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Il paper presenta V2M-Zero, un approccio di generazione zero-shot che allinea temporalmente la musica al video sfruttando le curve di eventi temporali calcolate indipendentemente per ciascuna modalità, ottenendo risultati superiori rispetto ai metodi basati su dati accoppiati senza richiedere training incrociato.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

Il paper propone Agentar-Fin-OCR, un sistema di parsing documentale specializzato per i documenti finanziari che trasforma PDF di lunghezza estrema in output strutturati e tracciabili, integrando algoritmi per la continuità tra pagine e l'apprendimento curricolare adattivo, e introduce il benchmark FinDocBench per valutare le prestazioni in questo dominio verticale.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Il paper presenta NeFTY, un framework di fisica differenziabile che utilizza campi neurali per ricostruire con precisione le proprietà materiali 3D e localizzare difetti sotterranei analizzando misurazioni termiche superficiali transitorie, superando i limiti dei metodi tradizionali e delle PINN a vincoli morbidi.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Il paper "LiTo" propone una rappresentazione latente 3D unificata che, tokenizzando campi luminosi superficiali da immagini RGB-profondità, permette di modellare congiuntamente geometria e aspetto dipendente dalla vista, generando oggetti 3D realistici con effetti speculari e riflessi coerenti con l'immagine di input.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Il paper presenta COMIC, un sistema AI completamente automatizzato che genera video comici brevi imitando gli sketch show, utilizzando una popolazione di agenti ispirati ai ruoli di produzione e critici LLM allineati alle preferenze del pubblico per ottimizzare la qualità e la diversità degli output.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Questo paper introduce un modello Transformer bidirezionale compatto per la descrizione di immagini che, integrando flussi di generazione da sinistra a destra e viceversa in un'unica architettura eseguita in parallelo e sfruttando tecniche di ensemble, supera i limiti dei modelli unidirezionali e raggiunge risultati all'avanguardia senza pre-addestramento visione-linguaggio.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Il documento presenta SDR-GAIN, un metodo in tempo reale basato su reti generative avversarie che ricostruisce con precisione le pose dei pedoni occlusi nel contesto della guida autonoma, superando le tecniche tradizionali sia in accuratezza che in velocità di inferenza.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Il paper propone PnLCalib, un metodo di calibrazione della camera basato sull'ottimizzazione di punti e linee che supera le limitazioni dei metodi tradizionali per la registrazione dei campi sportivi in video broadcast, dimostrando maggiore robustezza e precisione su dataset reali come SoccerNet-Calibration e WorldCup 2014.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Il paper presenta DP-IQA, un metodo innovativo per la valutazione della qualità delle immagini senza riferimento che sfrutta le conoscenze a priori di modelli di diffusione pre-addestrati, distillandole in un modello leggero per ottenere prestazioni all'avanguardia e una forte capacità di generalizzazione su dati reali.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

Il paper propone SGMD, un modello di diffusione guidato dallo stile che integra prompt stilistici e un meccanismo di mascheramento spaziotemporale per generare sequenze di danza realistiche, stilisticamente coerenti e controllabili in base alla musica e alle preferenze dell'utente.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Il paper introduce TIMotion, un framework efficiente per la generazione di motion umane interattive che combina modellazione temporale e mixing interattivo tramite tecniche come l'iniezione causale interattiva, la scansione evolutiva dei ruoli e l'amplificazione di pattern localizzati, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Il paper introduce DRUPI, un metodo di condensazione del dataset che migliora le prestazioni dei modelli sintetizzando informazioni privilegiate (come etichette di feature o attenzione) insieme ai dati ridotti, ottenendo significativi guadagni su diversi benchmark.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Questo articolo propone un metodo di apprendimento rappresentativo non supervisionato che, analizzando le trasformazioni sparse dei dati sequenziali tramite un modello di flusso probabilistico decomposto in campi vettoriali rotazionali e potenziali, genera rappresentazioni disaccoppiate basate su primitive di trasformazione indipendenti, ottenendo risultati all'avanguardia nella verosimiglianza dei dati e nell'approssimazione dell'equivarianza.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Questo lavoro propone una tecnica di compressione delle immagini basata sulla sintesi di nuove viste per abilitare il feedback visivo in tempo reale nel controllo remoto di veicoli sottomarini, superando i limiti di larghezza di banda delle comunicazioni acustiche grazie all'uso di modelli di apprendimento automatico e ottimizzazione tramite discesa del gradiente.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Il paper propone un framework di apprendimento attivo per i modelli visione-linguaggio che, combinando un clustering guidato dalle classi e una selezione adattiva basata su soglie specifiche per categoria, ottimizza l'efficienza del budget di annotazione superando le prestazioni delle metodologie esistenti su diversi dataset.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Precedente Successivo →