cs.CV articoli | Gist.Science

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Il paper presenta PaLMR, un framework che allinea il processo di ragionamento multimodale attraverso dati percettivamente coerenti e una funzione di ricompensa gerarchica, riducendo le allucinazioni visive e migliorando l'affidabilità dei modelli senza comprometterne le prestazioni.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Il paper introduce FCBNet, un modello efficiente per la segmentazione delle infestanti basato su un backbone ConvNeXt congelato e un blocco di correzione delle caratteristiche, che supera le prestazioni di modelli esistenti in termini di accuratezza e efficienza computazionale su immagini aeree multispettrali.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Il paper presenta GameVerse, un benchmark che dimostra come i modelli visione-linguaggio possano migliorare le proprie strategie di gioco attraverso un ciclo di riflessione basato su video, combinando traiettorie di fallimento e tutorial esperti in un approccio privo di addestramento analogo al reinforcement learning e al fine-tuning supervisionato.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Il paper introduce ASMIL, un nuovo framework unificato che stabilizza le dinamiche di attenzione nel deep learning per l'analisi di immagini digitali intere (WSI) mediante un modello di riferimento e funzioni di attivazione modificate, superando così i problemi di instabilità, sovraccarico e sovrapposizione per ottenere prestazioni superiori rispetto agli stati dell'arte.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Il paper presenta EnsAug, un nuovo paradigma di addestramento che utilizza un ensemble di modelli specializzati, ciascuno allenato su una specifica trasformazione geometrica dei dati, per superare i limiti delle tecniche di aumento generiche e raggiungere prestazioni superiori nel riconoscimento di movimenti umani e della lingua dei segni.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Il paper introduce HyperTokens, un metodo basato su un generatore di token che produce prompt su richiesta e utilizza regolarizzatori ispirati al meta-apprendimento e supervisione multimodale ausiliaria per migliorare l'apprendimento continuo nel VideoQA riducendo il dimenticamento e i costi di memoria.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Il paper propone Graph-of-Mark (GoM), una tecnica di prompting visivo basata su grafi che sovrappone scene grafiche alle immagini per migliorare le capacità di ragionamento spaziale dei modelli linguistici multimodali, ottenendo risultati significativamente superiori rispetto ai metodi esistenti.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Questo paper presenta un sistema di inferenza ottimizzato per la generazione video basato su trasformatori di diffusione, che utilizza un'incodifica posizionale 3D sequenziale-parallela con un indice temporale globale per ridurre la latenza e l'uso di memoria, permettendo la generazione di video in tempo reale con qualità comparabile.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Questo studio rivela che, nel contesto medico, il ragionamento a catena di pensiero (CoT) spesso peggiora le prestazioni rispetto alla risposta diretta a causa di un collo di bottiglia nella percezione visiva, ma dimostra che interventi di ancoraggio percettivo e grounding descrittivo possono ripristinare l'accuratezza migliorando l'allineamento cross-modale.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Il paper presenta SJD-PV, un metodo di accelerazione senza addestramento per la generazione di immagini autoregressiva che riduce la latenza fino al 30% verificando speculativamente gruppi di token correlati (frasi) invece di singoli token, preservando al contempo la qualità visiva.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Il paper propone CalibFusion, un rilevatore di fusione radar-camera basato su transformer che apprende end-to-end il raffinamento differenziabile della calibrazione estrinseca per migliorare la rilevazione 2D in ambienti acquatici caratterizzati da texture scarse e clutter radar.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Lo studio dimostra che, sebbene l'inizializzazione con rumore semantico mostri un lieve trend positivo su alcune dimensioni temporali nella generazione video, i risultati complessivi non superano significativamente la baseline con rumore gaussiano a causa di un segnale debole e instabile, suggerendo l'adozione di valutazioni accoppiate e diagnosi nello spazio del rumore come pratica standard.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Questo articolo presenta un autoencoder CNN non supervisionato, dotato di una funzione di perdita basata sulla distanza angolare spettrale ponderata (WSAD), per l'analisi non distruttiva e l'identificazione automatica dei componenti nei campioni stratificati di dipinti storici, come dimostrato su una sezione trasversale del Polittico di Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Il paper presenta AutoFigure-Edit, un sistema end-to-end che genera illustrazioni scientifiche completamente modificabili e adattabili stilisticamente partendo da testi lunghi, combinando la comprensione del contesto, lo stile guidato da riferimenti e la modifica nativa in SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Questo lavoro presenta un modello ibrido di apprendimento few-shot integrato con l'intelligenza artificiale spiegabile (XAI) per diagnosticare con alta precisione e trasparenza le malattie delle foglie di mais, riso e grano anche in condizioni di dati annotati limitati.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Il paper propone PRPO, un metodo di ottimizzazione parallela per risolvere i conflitti di addestramento nei modelli LVLM per l'analisi dei grafici, e MCDR-Bench, una nuova benchmark per la valutazione oggettiva delle capacità di ricerca approfondita, stabilendo un quadro unificato che supera le attuali limitazioni nell'intelligenza dei dati visivi.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Il paper introduce MultiGen, un motore di gioco basato su diffusione che integra una memoria esterna persistente e modulare per abilitare il controllo modificabile degli utenti sull'ambiente e garantire interazioni coerenti in mondi multiplayer condivisi.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Il paper presenta VB, un nuovo benchmark che valuta la capacità dei modelli visione-linguaggio di determinare la visibilità degli elementi in un'immagine e di astenersi quando la risposta non è affidabile, utilizzando un design sperimentale controllato per misurare l'accuratezza, la robustezza agli editing minimi e il ragionamento prospettico.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Il paper introduce RADAR, un nuovo benchmark multimodale basato su immagini CT addominali 3D e report radiologici, progettato per valutare la capacità dei modelli di analizzare le discrepanze cliniche e le modifiche apportate durante la revisione dei referti da parte di radiologi esperti.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Il paper propone ECHO, un framework multi-agente che utilizza operazioni su ipergrafi condivisi e una strategia di collegamento prima del vincolo per migliorare l'estrazione di eventi multimodali riducendo gli errori di propagazione e superando le prestazioni dello stato dell'arte.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

← Precedente Successivo →