cs.CV articles | Gist.Science

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Ce papier présente ORIC, un cadre et une nouvelle évaluation (ORIC-Bench) conçus pour analyser et améliorer la capacité des grands modèles vision-langage à reconnaître des objets dans des contextes incongrus, en démontrant que ces situations augmentent les erreurs d'hallucination et en proposant une méthode d'ajustement fin par renforcement visuel pour y remédier.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Cet article présente un système de navigation visuelle « teach-and-repeat » basé sur une caméra événementielle qui utilise la corrélation croisée dans le domaine fréquentiel pour atteindre une latence de traitement ultra-faible de 2,88 ms, permettant une navigation autonome précise de plus de 3000 mètres dans diverses conditions lumineuses.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Cette étude démontre que les benchmarks actuels de compréhension vidéo sous-estiment l'importance de l'audio en ne testant que des indices visuels, et propose une architecture évolutive intégrant un encodeur de parole qui améliore significativement les performances sur les tâches nécessitant une véritable compréhension multimodale.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Ce papier présente QuantVGGT, le premier cadre de quantisation post-entraînement pour les transformers VGGT, qui surmonte les défis de distribution à queue lourde et d'instabilité d'échantillonnage grâce à une quantification fine lissée en double et un échantillonnage diversifié filtré par bruit, permettant une réduction significative de la mémoire et une accélération matérielle tout en préservant une précision de reconstruction supérieure à 98 %.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Le papier présente MATR, un Transformer conscient du mouvement qui améliore le suivi multi-objets en prédisant explicitement les déplacements pour mettre à jour les requêtes de suivi à l'avance, atteignant ainsi des performances de pointe sur plusieurs jeux de données sans nécessiter de données externes.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

L'article présente GS-2M, un cadre d'optimisation matériellement conscient basé sur le 3D Gaussian Splatting qui permet une reconstruction de maillages haute fidélité, y compris sur des surfaces réfléchissantes, en évitant l'utilisation de composants neuronaux complexes grâce à une nouvelle stratégie de supervision de la rugosité.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Ce papier présente FAMDA, un cadre d'adaptation de domaine non supervisé qui exploite les modèles de fondation visuels comme enseignants dans une approche d'auto-entraînement pour générer des étiquettes pseudo de haute qualité, permettant ainsi d'entraîner un réseau étudiant unique, léger et performant pour la prédiction dense multi-tâches dans des environnements robotiques contraints.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Le papier propose QuantSparse, un cadre unifié combinant quantification et sparsification de l'attention pour compresser efficacement les transformateurs de diffusion vidéo tout en préservant la qualité de génération grâce à des techniques innovantes de distillation et de reparamétrisation.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Le papier présente DualFlow, un cadre unifié et efficace basé sur le flux rectifié et l'augmentation par récupération (RAG) pour générer des mouvements 3D réalistes et synchronisés entre deux personnes, conditionnés par divers modalités telles que le texte, la musique et des séquences de mouvement antérieures.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Le papier présente PHASE-Net, un modèle d'apprentissage profond léger et théoriquement fondé sur les équations de Navier-Stokes pour la mesure non invasive du pouls par rPPG, qui surpasse les méthodes existantes en robustesse et en efficacité grâce à une architecture combinant un échangeur axial à coût nul, un filtre spatial adaptatif et un TCN à portes.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Ce travail présente LMOD+, une nouvelle base de données et un benchmark multimodaux à grande échelle en ophtalmologie, enrichis par rapport à LMOD, qui intègrent des annotations multi-granulaires pour évaluer les performances et les limites des grands modèles de langage multimodaux dans le diagnostic, le stadification et la détection des biais liés aux maladies oculaires menaçant la vision.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Le papier présente REVEL, une nouvelle tâche de manipulation vidéo interactive en flux continu permettant de modifier n'importe quel élément à tout moment, et propose DragStream, une méthode sans entraînement qui corrige la dérive latente et les interférences contextuelles pour assurer une génération vidéo fluide et cohérente.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Le papier présente AR-Drag, le premier modèle de diffusion vidéo autoregressif renforcé par apprentissage par renforcement, capable de générer des vidéos à partir d'images en temps réel avec un contrôle précis du mouvement tout en maintenant une haute fidélité visuelle et une faible latence.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Cette revue systématique examine l'application des modèles génératifs profonds non supervisés à la détection d'anomalies en neuroimagerie, soulignant leur potentiel pour identifier des pathologies sans annotations tout en mettant en évidence les défis liés à l'hétérogénéité méthodologique et au manque de validation externe.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Cet article propose un nouveau cadre de rééchantillonnage par collision (CMR) pour la segmentation audio-vidéo continue, qui résout les problèmes de dérive sémantique et de confusion entre classes co-occurrentes en sélectionnant des échantillons multimodaux cohérents et en augmentant la fréquence de réentraînement des classes confusables.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Le papier présente Dream4Drive, un cadre de génération de données synthétiques qui améliore les performances des modèles de perception pour la conduite autonome en produisant des cas limites multi-vues photoréalistes, tout en introduisant l'ensemble de données 3D DriveObj3D pour faciliter la recherche future.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Le papier présente MoE-GS, un cadre unifié pionnier qui intègre une architecture de mélange d'experts avec un routeur de pixels sensible au volume pour améliorer la synthèse de nouvelles vues dans les scènes dynamiques, tout en proposant des stratégies d'optimisation pour atténuer les coûts de calcul inhérents.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Le papier présente AnyPcc, un cadre universel de compression de nuages de points qui surpasse l'état de l'art en généralisation grâce à un modèle de contexte robuste et une stratégie de fine-tuning adaptatif par instance pour gérer efficacement les données hors distribution.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Cet article présente une méthode de comptage automatisé des ravageurs dans des pièges à eau utilisant un bras robotique actif pour réduire les occlusions, où un système de contrôle en boucle fermée adaptatif optimise les motifs de brassage et la vitesse pour améliorer la précision et réduire le temps d'exécution par rapport aux méthodes statiques.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

← Précédent Suivant →