cs.CV articoli | Gist.Science

Maximizing Asynchronicity in Event-based Neural Networks

Il paper presenta EVA, un nuovo framework di apprendimento asincrono che, ispirandosi alla modellazione linguistica, genera caratteristiche evento-per-evento altamente espressive superando i metodi precedenti sia in compiti di riconoscimento che di rilevamento.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Il paper introduce BusterX, un sistema basato su MLLM per il rilevamento e la spiegazione delle falsificazioni video, accompagnato dal dataset GenBuster-200K e dal benchmark GenBuster-Bench per superare le attuali limitazioni nella forensica video generata dall'IA.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

Il paper presenta DVD-Quant, un innovativo framework di quantizzazione senza dati per i Video Diffusion Transformers che, integrando tecniche come BGR, ARQ e $\delta$ -GBS, permette di ottenere un'accelerazione di circa 2 volte e una quantizzazione W4A4 senza compromettere la qualità visiva dei video generati.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Il paper presenta "Alchemist", un nuovo metodo per creare dataset di affinamento supervisionato (SFT) generali ed efficaci sfruttando modelli generativi pre-addestrati come stimatori di campioni ad alto impatto, producendo un piccolo dataset di 3.350 campioni che migliora significativamente la qualità estetica e l'allineamento di diversi modelli text-to-image pubblici.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Questo articolo propone un nuovo framework di condensazione dei dati a livello di istanza (IDC) per la super-risoluzione delle immagini, che utilizza l'estrazione di caratteristiche di Fourier locali casuali e il matching delle distribuzioni di caratteristiche multilivello per generare un dataset sintetico condensato al 10% su DIV2K, ottenendo prestazioni comparabili a quelle del dataset originale completo.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Il paper presenta VisioMath, un benchmark di 1.800 problemi matematici K-12 basato su diagrammi visivamente simili, che rivela come i modelli linguistici multimodali attuali falliscano nel ragionamento comparativo a causa di un disallineamento tra immagine e testo, proponendo strategie di allineamento per migliorare le prestazioni.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Il paper presenta VisualPrompter, un framework di ingegneria dei prompt senza addestramento che ottimizza automaticamente gli input testuali per la sintesi di immagini, migliorando l'allineamento semantico tra descrizione e risultato visivo attraverso un meccanismo di auto-riflessione e revisione granulare.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Il paper introduce SPoT, una nuova strategia di tokenizzazione che posiziona i token in modo continuo all'interno delle immagini, superando i limiti delle griglie discrete per abilitare architetture Vision Transformer più efficienti, flessibili e interpretabili.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Il paper introduce SPARC, un framework che utilizza autoencoder sparsi allineati per creare uno spazio latente unificato che permette di interpretare e confrontare direttamente concetti ad alto livello tra modelli e modalità diverse, migliorando drasticamente l'allineamento concettuale e abilitando nuove applicazioni come la localizzazione spaziale guidata dal testo.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Il paper introduce ToBo, un pipeline di apprendimento auto-supervisionato che comprime scene dinamiche in un singolo token di collo di bottiglia per catturare efficacemente le dipendenze temporali, dimostrando superiorità in compiti di comprensione sequenziale come il tracciamento video e la manipolazione robotica sia in ambienti simulati che reali.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Il paper presenta NarrLV, il primo benchmark progettato per valutare in modo completo le capacità narrative dei modelli di generazione video a lungo termine, introducendo il concetto di "Temporal Narrative Atom" e metriche basate su MLLM per superare le limitazioni delle valutazioni attuali.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Il paper presenta TomatoMAP, un dataset completo di immagini RGB annotato per il fenotipaggio fine di piante di pomodoro, che dimostra come un framework di deep learning addestrato su questi dati raggiunga accuratezza e velocità paragonabili a quelle degli esperti umani.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Il paper presenta ExDD, un nuovo framework per il rilevamento di difetti superficiali che supera i limiti della rilevazione di anomalie a una sola classe modellando esplicitamente distribuzioni duali di caratteristiche e generando difetti sintetici tramite modelli di diffusione per affrontare la scarsità di dati.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

Il paper propone GSSR, un metodo che ottimizza individualmente la posizione e l'orientamento dei Gaussiani per allinearli perfettamente alla superficie latente, risolvendo così i problemi di geometria irregolare e distribuzione disomogenea tipici delle tecniche di 3D Gaussian Splatting esistenti.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Questo lavoro presenta un sistema multi-agente basato su modelli linguistici multimodali che supera significativamente lo stato dell'arte nell'estrazione automatica di informazioni chimiche da grafiche e testi scientifici, garantendo la creazione di database strutturati di alta qualità per la ricerca chimica guidata dall'intelligenza artificiale.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Questo lavoro introduce MAP, un metodo di decodifica senza addestramento che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala trattando gli stati nascosti come mappe semantiche 2D e applicando operazioni di attenzione a livello di mappa per migliorare la coerenza fattuale.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Il paper presenta SGDFuse, un modello di diffusione condizionato guidato da SAM che utilizza maschere semantiche come priori espliciti per fondere immagini a infrarossi e visibili, ottenendo risultati ad alta fedeltà e privi di artefatti che superano gli stati dell'arte sia nella valutazione soggettiva che oggettiva.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Il paper introduce i "Multivariate Fields of Experts", un nuovo framework per l'apprendimento di priori delle immagini che, grazie a funzioni potenziali multivariate basate su involucri di Moreau, supera i modelli univariati e si avvicina alle prestazioni dei metodi deep learning offrendo al contempo maggiore velocità, efficienza dei parametri, interpretabilità e garanzie teoriche di convergenza per vari problemi inversi di ricostruzione.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Il paper presenta DianJin-OCR-R1, un modello visione-linguaggio potenziato dal ragionamento che combina capacità di riconoscimento interne con l'uso di strumenti esterni e un processo di "ripresa" visiva per ridurre le allucinazioni e migliorare l'accuratezza nell'OCR rispetto ai modelli tradizionali e ai VLM non ragionanti.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

← Precedente Successivo →