cs.CV articoli | Gist.Science

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Il paper presenta ForestPersons, un nuovo dataset su larga scala progettato per migliorare il rilevamento di persone scomparse sotto la chioma degli alberi, offrendo prospettive a livello del suolo e annotazioni dettagliate che superano i limiti delle tradizionali immagini aeree in scenari di ricerca e soccorso.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Questo paper propone il classificatore GAD (Generation-Assisted Discriminative), un metodo che combina i vantaggi della modellazione generativa e discriminativa per migliorare l'efficienza e l'accuratezza nella comprensione delle azioni con modelli linguistici multimodali, ottenendo risultati allo stato dell'arte su diversi benchmark.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

Il paper presenta SemGS, un framework feed-forward che ricostruisce campi semantici 3D generalizzabili a partire da viste sparse utilizzando un'architettura a doppio ramo e un meccanismo di attenzione sensibile alla camera, superando i limiti dei metodi esistenti che richiedono input densi e ottimizzazione specifica per scena.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Questo articolo presenta un robot assistivo chirurgico a due bracci in grado di consegnare strumenti in modo autonomo e privo di collisioni, utilizzando modelli linguaggio-visione per interpretare i comandi e un framework di programmazione quadratica per evitare ostacoli in tempo reale, raggiungendo un tasso di successo dell'83,33% in ambienti dinamici.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Il paper propone GKD, un framework di distillazione della conoscenza che, disaccoppiando l'apprendimento delle rappresentazioni dall'adattamento al compito e introducendo un meccanismo di distillazione soft basato su query, migliora significativamente la generalizzazione fuori dominio nei modelli di segmentazione semantica derivati da foundation model visivi.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Il paper presenta VC-STaR, un nuovo framework di auto-miglioramento che sfrutta coppie di domande visive contrastive per mitigare le allucinazioni nei modelli visione-linguaggio, generando il dataset VisCoR-55K che potenzia significativamente le capacità di ragionamento visivo rispetto agli approcci esistenti.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

Il paper presenta CAPT, un framework di prompt tuning che riduce gli errori di allineamento tra visione e linguaggio nei modelli come CLIP, identificando e mitigando le confusioni sistematiche tra categorie simili attraverso l'uso di un Confusion Bank e moduli specifici per l'estrazione di segnali semantici e campionali.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Il paper presenta CAWM-Mamba, un modello unificato end-to-end che combina fusione di immagini infrarosso-visibili e ripristino da condizioni meteorologiche composte, superando i limiti delle metodologie esistenti grazie a componenti innovativi come il modulo di pre-elaborazione consapevole del meteo e il blocco stato-spazio nello spazio delle ondelette.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Il paper presenta SOLAR, un framework di raccomandazione che utilizza l'attenzione SVD-Optimized per ridurre la complessità computazionale preservando la distribuzione softmax, permettendo così di modellare sequenze comportamentali di scala massiccia e migliorando le visualizzazioni video del 0,68% nello scenario online di Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

Il paper propone ATD, un'architettura Transformer innovativa per il ripristino delle immagini che utilizza un dizionario di token adattivo e un meccanismo di cross-attenzione per modellare le dipendenze globali con complessità lineare, ottenendo prestazioni all'avanguardia su compiti come la super-risoluzione e il denoising.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

Il paper presenta NEMF, un nuovo framework che risolve l'inversione fisica non invasiva disaccoppiando geometria e campo ambientale per ricostruire con alta precisione i parametri materiali di una scena, abilitando così la creazione di Gemelli Digitali funzionali e simulabili.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Questo studio dimostra che l'uso combinato di tecniche di aumento dei dati come Affine Casuale e Jitter di Colore, applicate a un modello Vision Transformer leggero come EfficientViT, massimizza la generalizzazione e raggiunge prestazioni superiori (fino al 97,57%) nella classificazione dei caratteri scritti a mano in bengalese, affrontando efficacemente la carenza di grandi dataset per le lingue con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Il paper presenta "Synthetic-Child", una pipeline basata sull'IA generativa che crea dati sintetici fotorealistici per l'estimazione della postura dei bambini senza utilizzare immagini reali, ottenendo un modello addestrato che supera le prestazioni dei dati reali su dispositivi edge con limiti di privacy.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

Il paper presenta VLMFusionOcc3D, un framework multimodale innovativo che integra modelli visione-linguaggio e meccanismi di fusione adattiva per migliorare l'accuratezza e la robustezza della previsione di occupazione semantica 3D in scenari di guida autonoma, specialmente in condizioni meteorologiche avverse.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

Il paper presenta DrPose, un algoritmo di fine-tuning basato su ricompensa diretta che migliora la ricostruzione 3D di umani da singole immagini, risolvendo il problema delle pose innaturali sfruttando un nuovo dataset di 15.000 pose e un modello di reward differenziabile senza richiedere costosi asset 3D.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Il paper propone IB-IUMAD, un nuovo framework di denoising che combina un decoder Mamba e un modulo di fusione basato sul collo di bottiglia dell'informazione per mitigare la dimenticanza catastrofica nell'addestramento incrementale di modelli unificati multimodali per il rilevamento di anomalie, eliminando le caratteristiche spurie e ridondanti che ne compromettono le prestazioni.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

Il paper presenta SEP-YOLO, un nuovo framework per la segmentazione istanza di oggetti trasparenti che combina un meccanismo collaborativo a doppio dominio e un'annotazione di alta qualità del dataset Trans10K per superare le limitazioni delle metodologie esistenti e raggiungere prestazioni all'avanguardia.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

Il paper presenta OmniFashion, un framework unificato di visione e linguaggio basato sul nuovo dataset FashionX, progettato per superare la frammentazione attuale e abilitare un'intelligenza di moda generalista capace di ragionamento multi-task e dialogo interattivo.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Il paper introduce M3IRT, un framework basato sulla teoria della risposta all'elemento multidimensionale che decompone abilità e difficoltà in componenti visive, testuali e multimodali, permettendo di identificare e selezionare domande autenticamente cross-modali per valutare in modo più affidabile ed efficiente i modelli linguistici multimodali.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Il paper introduce DREAM, un framework unificato che combina apprendimento rappresentativo visivo e generazione di immagini da testo tramite tecniche di mascheramento progressivo e decodifica semanticamente allineata, ottenendo prestazioni superiori sia nella comprensione visiva che nella generazione senza ricorrere a reranker esterni.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

← Precedente Successivo →