cs.CV articoli | Gist.Science

Generic Camera Calibration using Blurry Images

Questo articolo presenta un metodo innovativo per la calibrazione generica di fotocamere che, sfruttando vincoli geometrici e un modello di illuminazione parametrico locale, stima simultaneamente le posizioni delle caratteristiche e le funzioni di diffusione del punto spazialmente variabili per gestire efficacemente le immagini sfocate causate dal movimento.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Il paper presenta Mario, un framework innovativo che abilita il ragionamento sui grafi multimodali utilizzando modelli linguistici di grandi dimensioni attraverso un design di VLM condizionato al grafo e un addestramento su istruzioni adattivo alle modalità, superando le sfide di coerenza cross-modale e preferenze eterogenee per ottenere prestazioni superiori rispetto agli stati dell'arte.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Il paper presenta Logi-PAR, il primo framework di riconoscimento delle attività dei pazienti che integra regole differenziabili e logica simbolica per inferire esplicitamente le cause dei rischi clinici, fornendo spiegazioni verificabili e superando le prestazioni degli attuali modelli basati su visione e linguaggio.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Il paper propone il framework SCDL, un modulo plug-and-play che mitiga i bias di supervisione e rappresentazione nelle immagini mediche semi-supervisionate imparando distribuzioni di caratteristiche condizionate alla classe, ottenendo risultati all'avanguardia, specialmente per le classi minoritarie, sui dataset Synapse e AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Il paper presenta SPyCer, una rete semi-supervisionata guidata dalla fisica che utilizza l'attenzione contestuale su immagini satellitari per stimare con precisione e coerenza fisica la temperatura dell'aria vicino alla superficie, superando i limiti delle misurazioni dei sensori terrestri.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Questo lavoro presenta un sistema robotico di smistamento tessile guidato dal gemello digitale che integra percezione multimodale e modelli linguistici visivi (VLM) per classificare abbigliamento e rilevare oggetti estranei in ambienti industriali complessi, dimostrando l'efficacia dell'approccio Qwen per l'accuratezza e di modelli più leggeri per la distribuzione su edge.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Il paper presenta ICHOR, un approccio di apprendimento rappresentativo auto-supervisionato basato su masked autoencoder che, addestrato su un vasto dataset multicentrico di mappe CBF ASL, supera i metodi esistenti nel migliorare le prestazioni per compiti diagnostici e di previsione della qualità delle immagini.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

Il paper presenta CATNet, un framework adattivo che migliora la percezione cooperativa mitigando la latenza temporale e il rumore multivariato attraverso sincronizzazione spazio-temporale, denoising basato su wavelet e selezione adattiva delle caratteristiche.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Il paper presenta Wiki-R1, un framework di apprendimento per rinforzo basato su un curricolo di generazione dati e campionamento che incentiva il ragionamento multimodale nelle KB-VQA, ottenendo risultati all'avanguardia sui benchmark Encyclopedic VQA e InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Il paper presenta WebChain, il più grande dataset open-source di tracce di interazione web annotate da umani, e un metodo di addestramento duale che, decoppiando l'ancoraggio spaziale dalla pianificazione, raggiunge prestazioni all'avanguardia nei benchmark per agenti web.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Il paper presenta Fusion4CA, un metodo che potenzia il rilevamento 3D degli oggetti fondendo dati LiDAR e RGB nello spazio BEV attraverso componenti modulari per l'ottimizzazione delle feature visive, ottenendo risultati superiori su nuScenes e in ambienti simulati lunari con un minimo aumento dei parametri di inferenza.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Il paper propone SpectralCache, un framework di caching senza addestramento che accelera i Diffusion Transformers sfruttando la non uniformità temporale, di profondità e delle frequenze per ottenere un speedup del 2,46x mantenendo una qualità visiva paragonabile agli stati dell'arte.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

Il paper introduce Dark3R, un framework che utilizza la distillazione da modelli 3D fondazionali per ottenere una struttura dal movimento e una sintesi di nuove viste robuste in condizioni di luce estremamente scarsa (SNR < -4 dB), addestrato esclusivamente su coppie di immagini raw rumorose e pulite senza supervisione 3D.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier è un framework di navigazione senza addestramento che integra modelli visione-linguaggio per identificare efficientemente frontiere semantiche come ancoraggi visivi, permettendo ai robot di navigare in ambienti aperti con prestazioni zero-shot senza la necessità di mappatura 3D densa o fine-tuning.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Questo lavoro introduce ORMOT, un nuovo compito di tracciamento multi-oggetto riferito a descrizioni linguistiche in immagini omnidirezionali, supportato dal dataset ORSet e dal framework basato su modelli visione-linguaggio su larga scala denominato ORTrack, progettati per superare i limiti del campo visivo delle telecamere convenzionali.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

Il paper presenta Fusion-CAM, un nuovo framework che unisce mappe di attivazione basate su gradienti e regioni attraverso un meccanismo di fusione adattiva per generare spiegazioni visive più robuste, complete e contestuali per le reti neurali convoluzionali.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Il paper presenta CliReg, un algoritmo deterministico per la validazione delle chiusure di ciclo nella SLAM basata su LiDAR 3D che sostituisce RANSAC con una ricerca di massimali clique su un grafo di compatibilità, ottenendo risultati più robusti e precisi in condizioni di rumore e ambiguità ambientale.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Questo articolo presenta un sistema basato su tracciamento multi-oggetto e YOLOv11 per analizzare la locomozione dei pesci dai video, al fine di monitorarne lo stato di salute e migliorare il benessere animale nell'acquacoltura sostenibile.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Il paper presenta MobileFetalCLIP, un modello studentesco leggero da 11,4 milioni di parametri che supera i fondamenti esistenti grazie a una nuova tecnica di distillazione della conoscenza repulsiva selettiva, consentendo l'analisi in tempo reale degli ultrasuoni fetali su dispositivi mobili con risorse limitate.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

← Precedente Successivo →