GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Il paper presenta GroundCount, un framework che integra modelli di rilevamento oggetti (ODM) con modelli visione-linguaggio (VLM) per fornire un ancoraggio spaziale esplicito, riducendo significativamente le allucinazioni nel conteggio e migliorando l'accuratezza attraverso strategie di prompting che superano la fusione implicita delle feature.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Attraverso una collaborazione interdisciplinare tra informatici e storici dell'arte, questo studio analizza i meccanismi con cui i modelli linguistici-visivi riconoscono lo stile artistico, rivelando che la maggior parte dei concetti da essi utilizzati per le previsioni è considerata coerente e rilevante dagli esperti umani.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Il paper presenta DynVLA, un modello VLA per la guida autonoma che introduce il "Dynamics CoT", un nuovo paradigma di ragionamento che prevede la dinamica del mondo tramite token compatti e decouplati per migliorare la qualità decisionale rispetto ai metodi basati su testo o immagini.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Il paper presenta NeFTY, un framework di fisica differenziabile che utilizza campi neurali per ricostruire con precisione le proprietà materiali 3D e localizzare difetti sotterranei analizzando misurazioni termiche superficiali transitorie, superando i limiti dei metodi tradizionali e delle PINN a vincoli morbidi.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

Image Captioning via Compact Bidirectional Architecture

Questo paper introduce un modello Transformer bidirezionale compatto per la descrizione di immagini che, integrando flussi di generazione da sinistra a destra e viceversa in un'unica architettura eseguita in parallelo e sfruttando tecniche di ensemble, supera i limiti dei modelli unidirezionali e raggiunge risultati all'avanguardia senza pre-addestramento visione-linguaggio.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Il paper introduce TIMotion, un framework efficiente per la generazione di motion umane interattive che combina modellazione temporale e mixing interattivo tramite tecniche come l'iniezione causale interattiva, la scansione evolutiva dei ruoli e l'amplificazione di pattern localizzati, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Questo articolo propone un metodo di apprendimento rappresentativo non supervisionato che, analizzando le trasformazioni sparse dei dati sequenziali tramite un modello di flusso probabilistico decomposto in campi vettoriali rotazionali e potenziali, genera rappresentazioni disaccoppiate basate su primitive di trasformazione indipendenti, ottenendo risultati all'avanguardia nella verosimiglianza dei dati e nell'approssimazione dell'equivarianza.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Questo lavoro propone una tecnica di compressione delle immagini basata sulla sintesi di nuove viste per abilitare il feedback visivo in tempo reale nel controllo remoto di veicoli sottomarini, superando i limiti di larghezza di banda delle comunicazioni acustiche grazie all'uso di modelli di apprendimento automatico e ottimizzazione tramite discesa del gradiente.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess