cs.CV articoli | Gist.Science

SURE: Semi-dense Uncertainty-REfined Feature Matching

Il paper presenta SURE, un framework di abbinamento delle caratteristiche semi-denso che migliora l'affidabilità delle corrispondenze tra immagini in scenari difficili prevedendo sia le coordinate che la loro incertezza attraverso un approccio basato su evidenze.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Il paper presenta PNG, un nuovo framework basato sulla diffusione che genera rumore realistico in immagini sRGB utilizzando rappresentazioni apprese tramite prompt, eliminando la dipendenza dai metadati della fotocamera e migliorando così la generalizzabilità della sintesi del rumore per la rimozione del rumore reale.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Questo studio dimostra che è possibile prevedere con un'accuratezza dell'80,4% il tipo di lancio di baseball analizzando esclusivamente la cinematica 3D del corpo del lanciatore, rivelando che la meccanica del busto e la posizione del polso sono i fattori più determinanti, mentre le varianti di presa non sono distinguibili dal movimento corporeo.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Questo lavoro propone un nuovo framework a due stadi per la generazione automatica di referti tomografici (CTRG) che, sfruttando un apprendimento contrastivo immagine-testo guidato dall'osservazione delle strutture anatomiche e tecniche di mitigazione dei falsi negativi, supera le prestazioni attuali migliorando l'efficienza clinica.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Il paper presenta DeformTrace, un modello innovativo basato su stati spaziali deformabili e token di relay che supera le limitazioni delle tecniche attuali per la localizzazione temporale delle falsificazioni, offrendo prestazioni all'avanguardia con maggiore efficienza e robustezza.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Il paper propone FedMEPD, un nuovo framework di apprendimento federato che utilizza encoder specifici per modalità e decoder di fusione parzialmente personalizzati per affrontare l'eterogeneità intermodale e le esigenze di personalizzazione nella segmentazione dei tumori cerebrali multimodale.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Il paper propone FedAFD, un quadro unificato per l'apprendimento federato multimodale che, attraverso allineamento avversariale, fusione adattiva e distillazione guidata dalla similarità, risolve le sfide dell'eterogeneità dei dati e dei modelli per migliorare le prestazioni sia lato client che server.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Questo lavoro presenta un metodo semplice ed efficace per migliorare le prestazioni di segmentazione dei Vision Transformer, introducendo un kernel gaussiano apprendibile che modula l'attenzione verso i patch vicini, ottenendo significativi guadagni su benchmark di segmentazione senza compromettere le capacità di classificazione o richiedere modifiche al regime di addestramento.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Il paper propone FC-VFI, un metodo innovativo per l'interpolazione video che sfrutta modelli di diffusione pre-addestrati con nuove strategie di modellazione temporale e una funzione di perdita specifica per generare video ad alta fedeltà e coerenza a 120 e 240 FPS, superando i limiti di fedeltà e consistenza temporale delle tecniche esistenti.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Il paper propone AdaIAT, un metodo che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala adattivamente aumentando l'attenzione sui token generati, riducendo così gli errori visivi senza compromettere la coerenza linguistica o causare descrizioni ripetitive.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Questo lavoro propone un metodo di ottimizzazione di texture avversarie 3D, basato su rendering differenziabile e strategie di ottimizzazione come EOT e un curriculum da grezzo a fine, per identificare e sfruttare le vulnerabilità delle politiche visuomotorie robotiche sotto diverse angolazioni di visione, superando i limiti delle tradizionali patch 2D.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Questo articolo presenta un dataset specifico per la rilevazione e il tracciamento di persone tramite LiDAR montato su gru a ponte, valutando l'adattamento di vari rilevatori 3D e algoritmi di tracciamento in un ambiente industriale per colmare il divario tra i dati di guida standard e la visione dall'alto.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Il paper propone un nuovo framework di apprendimento profondo basato su prototipi e supervisione debole che migliora l'interpretabilità e l'affidabilità della classificazione del cancro alla prostata confrontando le regioni sospette con esempi clinicamente validati, riducendo così il carico di lavoro dei patologi.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Il paper propone un nuovo framework di pre-addestramento basato su compiti consapevoli della posizione per migliorare la capacità dei modelli di rispondere a domande visive mediche confrontando immagini, ottenendo risultati all'avanguardia nel rilevamento delle variazioni cliniche nelle radiografie del torace.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Questo paper introduce un nuovo modello di camera che estende la proiezione ortografica con un parametro di restringimento per catturare efficacemente le distorsioni prospettiche nelle immagini facciali ravvicinate, migliorando così la regressione dei modelli 3DMM monoculari su video acquisiti con telecamere montate sulla testa.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Il paper presenta BiEvLight, un framework di apprendimento bi-livello che risolve il problema del rumore accoppiato nelle immagini a bassa luminosità ottimizzando in modo collaborativo la denoising degli eventi e il potenziamento dell'immagine, ottenendo risultati superiori rispetto agli stati dell'arte.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Il paper presenta 3D-RFT, il primo framework che estende il Reinforcement Learning con ricompense verificabili (RLVR) alla comprensione delle scene 3D basata su video, ottimizzando direttamente le metriche di valutazione attraverso un processo di fine-tuning ibrido SFT e GRPO per ottenere prestazioni state-of-the-art superiori a modelli più grandi.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Il paper presenta VideoHV-Agent, un framework multi-agente che rivoluziona la comprensione dei video lunghi sostituendo la ricerca reattiva con un processo strutturato di formulazione e verifica delle ipotesi, ottenendo così risultati all'avanguardia in termini di accuratezza, interpretabilità ed efficienza computazionale.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

← Precedente Successivo →