cs.CV articles | Gist.Science

MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects

Ce papier propose une méthode d'estimation de pose de caméra dynamique et sans marqueurs pour la réalité augmentée multi-caméras, qui exploite les chevauchements spatio-temporels d'objets connus pour établir des relations entre les vues et surpasser l'état de l'art sur plusieurs jeux de données.

Shiyu Li, Hannah Schieber, Kristoffer Waldow, Benjamin Busam, Julian Kreimeier, Daniel Roth2026-03-25💻 cs

URA-Net: Uncertainty-Integrated Anomaly Perception and Restoration Attention Network for Unsupervised Anomaly Detection

Ce papier propose URA-Net, un réseau d'attention intégrant l'incertitude pour la détection d'anomalies non supervisée, qui améliore les performances en synthétisant des anomalies artificielles pour apprendre à restaurer les défauts vers leur état normal via une perception basée sur les réseaux bayésiens.

Wei Luo, Peng Xing, Yunkang Cao, Haiming Yao, Weiming Shen, Zechao Li2026-03-25🤖 cs.AI

UAV-DETR: DETR for Anti-Drone Target Detection

Le papier présente UAV-DETR, un cadre de détection d'objets innovant intégrant des architectures légères et des mécanismes d'attention adaptés aux petites cibles, qui surpasse les méthodes existantes en offrant un compromis supérieur entre précision et efficacité pour la détection de drones miniatures dans des environnements complexes.

Jun Yang, Dong Wang, Hongxu Yin, Hongpeng Li, Jianxiong Yu2026-03-25🤖 cs.AI

L-UNet: An LSTM Network for Remote Sensing Image Change Detection

Ce papier propose L-UNet et AL-UNet, des réseaux de neurones end-to-end combinant des couches convolutionnelles et des LSTM pour améliorer la détection de changements dans les images de télédétection en intégrant à la fois les caractéristiques spatiales et temporelles.

Shuting Sun, Lin Mu, Lizhe Wang, Peng Liu2026-03-25⚡ eess

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Ce papier propose PEPO, une méthode d'optimisation de politique au niveau des tokens qui améliore le raisonnement multimodal en chaîne de pensée en distinguant dynamiquement l'ancrage perceptuel et l'inférence exploratoire via un mécanisme de porte lisse, sans nécessiter de supervision supplémentaire.

Yunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng2026-03-25💻 cs

UniQueR: Unified Query-based Feedforward 3D Reconstruction

Le papier présente UniQueR, un cadre unifié et efficace pour la reconstruction 3D à partir d'images non calibrées, qui remplace les approches denses 2,5D par une inférence basée sur des requêtes 3D explicites pour générer une géométrie complète, y compris dans les zones occluses, avec une précision supérieure et un coût computationnel réduit.

Chensheng Peng, Quentin Herau, Jiezhi Yang, Yichen Xie, Yihan Hu, Wenzhao Zheng, Matthew Strong, Masayoshi Tomizuka, Wei Zhan2026-03-25🤖 cs.AI

Gau-Occ: Geometry-Completed Gaussians for Multi-Modal 3D Occupancy Prediction

Gau-Occ est un cadre novateur de prédiction d'occupation 3D multi-modal qui atteint des performances de pointe avec une efficacité computationnelle accrue en modélisant la scène via des gaussiennes sémantiques 3D compactes, initialement enrichies par un diffuseur de complétion LiDAR et fusionnées de manière géométriquement alignée avec les données visuelles.

Chengxin Lv, Yihui Li, Hongyu Yang, YunHong Wang2026-03-25💻 cs

A Feature Shuffling and Restoration Strategy for Universal Unsupervised Anomaly Detection

Cet article présente FSR, un cadre novateur de détection d'anomalies non supervisée universelle qui atténue le problème du raccourci identique en utilisant un shuffling et une restauration de caractéristiques multi-échelles pour forcer le modèle à apprendre des informations contextuelles globales.

Wei Luo, Haiming Yao, Zhenfeng Qiang, Xiaotian Zhang, Weihang Zhang2026-03-25💻 cs

Designing to Forget: Deep Semi-parametric Models for Unlearning

Cet article présente une famille de modèles semi-paramétriques profonds qui permettent un apprentissage machine « oubliable » en supprimant explicitement des échantillons d'entraînement lors du test sans modifier les paramètres du modèle, offrant ainsi des performances compétitives et une efficacité d'effacement bien supérieure aux approches paramétriques existantes.

Amber Yijia Zheng, Yu-Shan Tai, Raymond A. Yeh2026-03-25💻 cs

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Ce papier présente ForeSea, un système de recherche forensique vidéo basé sur une architecture en trois étapes et un nouveau benchmark nommé ForeSeaQA, conçus pour améliorer la précision de la recherche de cibles spécifiques et le raisonnement temporel au sein de longues séquences de vidéosurveillance via des requêtes multimodales (image et texte).

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli2026-03-25💻 cs

← Précédent Suivant →