cs.CV articoli | Gist.Science

Towards Accurate One-Stage Object Detection with AP-Loss

Questo articolo propone un nuovo framework per i rilevatori di oggetti one-stage che sostituisce il compito di classificazione con un'attività di ranking ottimizzata tramite una perdita di precisione media (AP-loss) e un algoritmo di ottimizzazione innovativo, ottenendo risultati significativamente migliori senza modificare l'architettura della rete.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Questo paper propone un nuovo framework per i rilevatori di oggetti in una sola fase che sostituisce il compito di classificazione con un compito di ordinamento ottimizzato tramite una perdita di precisione media (AP-loss), risolvendo efficacemente lo squilibrio tra classi e ottenendo prestazioni all'avanguardia grazie a un innovativo algoritmo di ottimizzazione.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

Il paper presenta OmniTracker, un modello unificato basato su un paradigma di "tracking con rilevamento" che risolve simultaneamente compiti di tracciamento istanza e categoria condividendo un'unica architettura e pesi, ottenendo prestazioni competitive su sette dataset senza la ridondanza dei metodi specifici per compito.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Il paper introduce la Receptive-Field Attention Convolution (RFAConv), una nuova unità convoluzionale che risolve il problema della condivisione dei parametri tramite un meccanismo di attenzione sui campi ricettivi, migliorando significativamente le prestazioni delle reti neurali con un costo computazionale e parametrico trascurabile.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

Il paper propone un nuovo approccio di progettazione ottica "task-driven" che, congelando un modello di visione preaddestrato e ottimizzando solo la lente, supera i limiti dei metodi tradizionali e dell'ottimizzazione end-to-end instabile, producendo lenti che generano immagini meglio adattate alle preferenze del modello e che superano le lenti classiche con lo stesso o un minor numero di elementi.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Il paper propone il metodo TG-MIL, che integra bias induttivi topologici nel framework di Multiple Instance Learning per migliorare significativamente le prestazioni e la generalizzabilità in scenari con dati scarsi, come la classificazione di malattie rare.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Questo lavoro propone un nuovo approccio per l'interpolazione video basato sull'"indicizzazione della distanza" e su una strategia di stima iterativa, che disambigua il movimento degli oggetti fornendo un riferimento esplicito sulla percorrenza tra i frame, migliorando così la qualità percettiva e abilitando nuove funzionalità di editing temporale.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Questo lavoro propone un nuovo modello causale parziale latente per l'apprendimento multimodale che, superando i limiti dei DAG tradizionali, dimostra teoricamente e verifica sperimentalmente come l'apprendimento contrastivo multimodale (MMCL) e modelli pre-addestrati come CLIP possano generare rappresentazioni disaccoppiate robuste, migliorando l'apprendimento con pochi esempi e la generalizzazione di dominio.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Il documento presenta l'adattamento del framework ZACAF, integrato con tecniche di apprendimento per trasferimento e aumento dei dati, per migliorare la precisione e la generalizzabilità dell'analisi automatica della funzione cardiovascolare in zebrafish, inclusa la valutazione di mutanti nrap affetti da cardiomiopatia.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Il paper presenta FiLo, un nuovo metodo per il rilevamento di anomalie zero-shot che migliora le prestazioni combinando descrizioni testuali fine-grained generate da LLM e una localizzazione di alta qualità potenziata da Grounding DINO e interazione cross-modale multiscala, ottenendo risultati all'avanguardia sui dataset MVTec e VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Questo lavoro propone il metodo USEFUL, che riduce il pregiudizio verso la semplicità modificando la distribuzione dei dati di addestramento tramite un campionamento mirato basato sull'output iniziale della rete, migliorando così la generalizzazione in-distribuzione e ottenendo prestazioni state-of-the-art su diversi dataset e architetture.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Il paper presenta OS-Det3D, un framework di formazione in due fasi che combina proposte di oggetti 3D agnostiche alla classe derivate da LiDAR con un modulo di selezione congiunta basato su caratteristiche visive BEV per migliorare la rilevazione di oggetti sconosciuti e noti nella guida autonoma.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Il paper presenta PO-GUISE+, un trasformatore video multi-task che migliora l'efficienza computazionale e l'accuratezza nel riconoscimento delle azioni distratte alla guida selezionando i token in base alla postura del conducente e agli oggetti interagenti, superando gli attuali metodi sullo stato dell'arte su diversi dataset e piattaforme embedded.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Il paper presenta MSSPlace, un metodo innovativo per il riconoscimento dei luoghi che integra dati visivi e testuali provenienti da sensori multipli (telecamere, LiDAR e segmentazione semantica) per generare descrittori unificati, ottenendo prestazioni superiori rispetto agli approcci a singola modalità su dataset reali.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Questo paper presenta un nuovo dataset pubblico composto da video e un'analisi tassonomica di 90 oggetti critici, progettato per migliorare i sistemi di riconoscimento visivo e supportare la navigazione delle persone con disabilità visive, evidenziando al contempo le lacune delle attuali soluzioni di computer vision.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

Il paper propone un metodo a due fasi che costruisce un modello causale strutturale nello spazio latente di un VQ-VAE per generare counterfactuali di risonanza magnetica cerebrale 3D ad alta fedeltà, superando i limiti di diversità e qualità delle tecniche generative tradizionali.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Il paper propone il MV-Adapter, un modulo di attenzione adattiva ai canali che migliora le prestazioni della segmentazione di istanze sottomarine nell'architettura USIS-SAM mitigando gli effetti dell'attenuazione della luce, della distorsione cromatica e dei fondali complessi.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

Il paper presenta XPoint, un'architettura auto-supervisionata basata su spazi di stato visivi e modulare che supera le limitazioni dei metodi attuali nell'allineamento di immagini multispettrali, ottenendo prestazioni superiori su diverse combinazioni di modalità grazie all'uso di un encoder VMamba e a testine di decodifica specializzate.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

Il paper presenta EchoMimicV2, un metodo innovativo per l'animazione umana a mezzo busto che, attraverso una strategia di armonizzazione audio-pose dinamica e l'uso di dati headshot durante l'addestramento, elimina le condizioni ridondanti per ottenere risultati espressivi e di alta qualità senza richiedere input aggiuntivi durante l'inferenza.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Il paper introduce MFP3D, un nuovo framework che stima con precisione le porzioni di cibo a partire da una singola immagine monoculare generando una nuvola di punti 3D e combinando le caratteristiche spaziali e cromatiche per superare i limiti dei metodi esistenti.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

← Precedente Successivo →