Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Il paper propone InterFormer, un modello end-to-end basato su transformer che risolve le limitazioni delle metodologie esistenti per l'analisi delle interazioni mano-oggetto in visione egocentrica integrando un generatore di query dinamico, un selettore di caratteristiche a doppio contesto e una funzione di perdita di coerenza di co-occorrenza per ottenere risultati allo stato dell'arte su dataset come EgoHOS e mini-HOI4D.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Questo articolo propone IPOW, un framework di rilevamento di oggetti in mondo aperto interpretabile basato su un modello di decomposizione concettuale che migliora il riconoscimento degli oggetti sconosciuti e riduce la confusione tra categorie note e ignote attraverso la separazione esplicita delle caratteristiche in concetti discriminativi, condivisi e di sfondo.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Il paper presenta SIFormer, un modello transformer che migliora la rilevazione 3D di oggetti combinando radar 4D e telecamere attraverso un meccanismo di attivazione incrociata che integra le informazioni istanziali 2D nello spazio BEV, superando così le limitazioni delle fusioni esistenti e ottenendo prestazioni state-of-the-art su diversi dataset.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Il paper presenta SurgAtt-Tracker, un framework innovativo che traccia l'attenzione chirurgica generando mappe di calore dense attraverso un riordinamento temporale delle proposte e un affinamento consapevole del movimento, supportato dal nuovo benchmark SurgAtt-1.16M per garantire una guida precisa del campo visivo durante la chirurgia minimamente invasiva.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Questo studio dimostra la fattibilità dell'uso di modelli visione-linguaggio su video RGB per stimare in modo non invasivo le distanze orizzontali e verticali delle mani durante i sollevamenti manuali, ottenendo errori medi ridotti (6-8 cm) grazie a pipeline che integrano la segmentazione e la regressione temporale.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs