cs.CV articoli | Gist.Science

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Il paper propone AdaIAT, un metodo che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala adattivamente aumentando l'attenzione sui token generati, riducendo così gli errori visivi senza compromettere la coerenza linguistica o causare descrizioni ripetitive.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Questo lavoro propone un metodo di ottimizzazione di texture avversarie 3D, basato su rendering differenziabile e strategie di ottimizzazione come EOT e un curriculum da grezzo a fine, per identificare e sfruttare le vulnerabilità delle politiche visuomotorie robotiche sotto diverse angolazioni di visione, superando i limiti delle tradizionali patch 2D.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Questo articolo presenta un dataset specifico per la rilevazione e il tracciamento di persone tramite LiDAR montato su gru a ponte, valutando l'adattamento di vari rilevatori 3D e algoritmi di tracciamento in un ambiente industriale per colmare il divario tra i dati di guida standard e la visione dall'alto.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Il paper propone un nuovo framework di apprendimento profondo basato su prototipi e supervisione debole che migliora l'interpretabilità e l'affidabilità della classificazione del cancro alla prostata confrontando le regioni sospette con esempi clinicamente validati, riducendo così il carico di lavoro dei patologi.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Il paper propone un nuovo framework di pre-addestramento basato su compiti consapevoli della posizione per migliorare la capacità dei modelli di rispondere a domande visive mediche confrontando immagini, ottenendo risultati all'avanguardia nel rilevamento delle variazioni cliniche nelle radiografie del torace.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Questo paper introduce un nuovo modello di camera che estende la proiezione ortografica con un parametro di restringimento per catturare efficacemente le distorsioni prospettiche nelle immagini facciali ravvicinate, migliorando così la regressione dei modelli 3DMM monoculari su video acquisiti con telecamere montate sulla testa.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Il paper presenta BiEvLight, un framework di apprendimento bi-livello che risolve il problema del rumore accoppiato nelle immagini a bassa luminosità ottimizzando in modo collaborativo la denoising degli eventi e il potenziamento dell'immagine, ottenendo risultati superiori rispetto agli stati dell'arte.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Il paper presenta 3D-RFT, il primo framework che estende il Reinforcement Learning con ricompense verificabili (RLVR) alla comprensione delle scene 3D basata su video, ottimizzando direttamente le metriche di valutazione attraverso un processo di fine-tuning ibrido SFT e GRPO per ottenere prestazioni state-of-the-art superiori a modelli più grandi.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Il paper presenta VideoHV-Agent, un framework multi-agente che rivoluziona la comprensione dei video lunghi sostituendo la ricerca reattiva con un processo strutturato di formulazione e verifica delle ipotesi, ottenendo così risultati all'avanguardia in termini di accuratezza, interpretabilità ed efficienza computazionale.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Il paper introduce Wallaroo, un modello autoregressivo basato sulla previsione del prossimo token che unifica comprensione, generazione e modifica multimodale con supporto multilingue e multirisoluzione, ottenendo prestazioni competitive rispetto ad altri modelli unificati.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Il paper introduce TAPFormer, un framework basato su transformer che utilizza una fusione temporale asincrona transitoria per unire in modo robusto flussi di eventi e fotogrammi RGB, permettendo un tracciamento di punti arbitrari ad alta precisione anche in condizioni di illuminazione scarsa o movimento rapido.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Il paper presenta MultiGO++, un nuovo framework per la ricostruzione 3D di umani vestiti da una singola immagine che supera i limiti delle metodologie esistenti attraverso una collaborazione sistematica tra geometria e texture, realizzata tramite sintesi multi-sorgente, estrazione di forma consapevole delle regioni e una rete di ricostruzione duale.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Il paper presenta Lens2Zernike, un framework di deep learning basato su principi fisici che recupera in modo cieco i parametri ottici da singole immagini sfocate per abilitare una deconvoluzione stabile e il ripristino di dettagli diffrazione-limitati nelle fotocamere mobili.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Questo studio presenta un'analisi su larga scala delle capacità e dei limiti della Restaurazione Immagini Generativa, rivelando un cambiamento di paradigma dalla scarsità di dettagli verso la necessità di controllarne la qualità e il significato semantico, e proponendo un nuovo modello di valutazione della qualità dell'immagine allineato al giudizio umano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Il paper presenta Tell2Adapt, un innovativo framework unificato per l'adattamento di dominio non supervisionato senza sorgente in ambito medico che sfrutta un Modello Fondamentale Visivo per generare pseudo-etichette di alta qualità e garantire affidabilità clinica attraverso la regolarizzazione dei prompt e la raffinazione della plausibilità visiva, superando gli approcci esistenti su un vasto set di target anatomici.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Questo articolo presenta Semap, un nuovo dataset di riferimento, e un framework di segmentazione multiscale che, combinando sintesi procedurale dei dati e integrazione multiscala, dimostra come sia possibile ottenere modelli di riconoscimento semantico generalizzabili e robusti per collezioni di mappe storiche eterogenee, superando i limiti degli approcci attuali focalizzati su serie omogenee.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Il paper propone IRTTA, un metodo di adattamento a tempo di test che sfrutta le ricostruzioni intermedie nella tomografia a coerenza ottica per migliorare le prestazioni di segmentazione medica e fornire stime di incertezza senza modificare i modelli esistenti.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Il paper presenta CoIn3D, un framework generalizzabile per il rilevamento 3D di oggetti multi-camera che supera le difficoltà di trasferimento tra configurazioni diverse integrando esplicitamente le discrepanze degli prior spaziali attraverso la modulazione delle feature sensibile allo spazio e l'aumento dei dati orientato alla camera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

← Precedente Successivo →