cs.CV articoli | Gist.Science

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Il paper presenta Wiki-R1, un framework di apprendimento per rinforzo basato su un curricolo di generazione dati e campionamento che incentiva il ragionamento multimodale nelle KB-VQA, ottenendo risultati all'avanguardia sui benchmark Encyclopedic VQA e InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Il paper presenta WebChain, il più grande dataset open-source di tracce di interazione web annotate da umani, e un metodo di addestramento duale che, decoppiando l'ancoraggio spaziale dalla pianificazione, raggiunge prestazioni all'avanguardia nei benchmark per agenti web.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Il paper presenta Fusion4CA, un metodo che potenzia il rilevamento 3D degli oggetti fondendo dati LiDAR e RGB nello spazio BEV attraverso componenti modulari per l'ottimizzazione delle feature visive, ottenendo risultati superiori su nuScenes e in ambienti simulati lunari con un minimo aumento dei parametri di inferenza.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Il paper propone SpectralCache, un framework di caching senza addestramento che accelera i Diffusion Transformers sfruttando la non uniformità temporale, di profondità e delle frequenze per ottenere un speedup del 2,46x mantenendo una qualità visiva paragonabile agli stati dell'arte.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

Il paper introduce Dark3R, un framework che utilizza la distillazione da modelli 3D fondazionali per ottenere una struttura dal movimento e una sintesi di nuove viste robuste in condizioni di luce estremamente scarsa (SNR < -4 dB), addestrato esclusivamente su coppie di immagini raw rumorose e pulite senza supervisione 3D.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier è un framework di navigazione senza addestramento che integra modelli visione-linguaggio per identificare efficientemente frontiere semantiche come ancoraggi visivi, permettendo ai robot di navigare in ambienti aperti con prestazioni zero-shot senza la necessità di mappatura 3D densa o fine-tuning.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Questo lavoro introduce ORMOT, un nuovo compito di tracciamento multi-oggetto riferito a descrizioni linguistiche in immagini omnidirezionali, supportato dal dataset ORSet e dal framework basato su modelli visione-linguaggio su larga scala denominato ORTrack, progettati per superare i limiti del campo visivo delle telecamere convenzionali.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

Il paper presenta Fusion-CAM, un nuovo framework che unisce mappe di attivazione basate su gradienti e regioni attraverso un meccanismo di fusione adattiva per generare spiegazioni visive più robuste, complete e contestuali per le reti neurali convoluzionali.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Il paper presenta CliReg, un algoritmo deterministico per la validazione delle chiusure di ciclo nella SLAM basata su LiDAR 3D che sostituisce RANSAC con una ricerca di massimali clique su un grafo di compatibilità, ottenendo risultati più robusti e precisi in condizioni di rumore e ambiguità ambientale.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Questo articolo presenta un sistema basato su tracciamento multi-oggetto e YOLOv11 per analizzare la locomozione dei pesci dai video, al fine di monitorarne lo stato di salute e migliorare il benessere animale nell'acquacoltura sostenibile.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Il paper presenta MobileFetalCLIP, un modello studentesco leggero da 11,4 milioni di parametri che supera i fondamenti esistenti grazie a una nuova tecnica di distillazione della conoscenza repulsiva selettiva, consentendo l'analisi in tempo reale degli ultrasuoni fetali su dispositivi mobili con risorse limitate.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

Il paper presenta RelaxFlow, un framework senza addestramento che risolve l'ambiguità semantica nella generazione 3D da testo sotto occlusione, utilizzando un meccanismo di rilassamento per completare le regioni nascoste rispettando sia l'osservazione originale che l'intento del prompt.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Il paper presenta SAIL, un metodo per la descrizione densa di video debolmente supervisionata che migliora la localizzazione temporale degli eventi generando maschere semanticamente consapevoli tramite allineamento cross-modale e arricchendo le annotazioni con caption sintetiche generate da LLM.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Il paper presenta CompACT, un tokenizzatore discreto che comprime le osservazioni in soli 8 token per abilitare una pianificazione rapida ed efficiente nei modelli del mondo, rendendoli pratici per il controllo in tempo reale.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Il paper presenta NaiLIA, un metodo multimodale per il recupero di immagini di design delle unghie basato su descrizioni dense delle intenzioni e query di palette cromatiche, che supera i modelli esistenti grazie a un nuovo approccio di allineamento e a un benchmark specifico creato con oltre 10.000 immagini annotate.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Il paper presenta RealWonder, il primo sistema in tempo reale che genera video condizionati da azioni fisiche partendo da una singola immagine, integrando ricostruzione 3D, simulazione fisica e un generatore video distillato per simulare interattivamente forze, manipolazioni robotiche e comportamenti di materiali diversi.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Il paper presenta LSP, un nuovo scheduler di inferenza per i Modelli Linguistici Diffusivi che accelera la generazione del testo fino a 3,4 volte garantendo coerenza e stabilità attraverso l'assorbimento monolitico di prefissi contigui, risolvendo così i problemi di frammentazione della cache KV e di velocità tipici degli approcci esistenti.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

EdgeDAM è un framework di tracciamento leggero e guidato dalla rilevazione progettato per dispositivi mobili che, integrando una memoria a doppio buffer e un meccanismo di stabilizzazione della scatola, supera i compromessi tra accuratezza e velocità per garantire un tracciamento robusto in tempo reale anche in presenza di occlusioni e distrattori.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Il paper introduce HALP, un metodo che rileva le allucinazioni nei modelli visione-linguaggio analizzando le loro rappresentazioni interne in un'unica passata in avanti prima della generazione di qualsiasi token, consentendo così interventi tempestivi ed efficienti senza dover decodificare il testo.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

← Precedente Successivo →