cs.CV articles | Gist.Science

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Cet article propose une méthode d'optimisation de textures adverses 3D cohérentes avec le point de vue, utilisant un rendu différentiable et une stratégie de curriculum de grossier à fin, pour révéler et exploiter les vulnérabilités des politiques visuomotrices robotiques face à des changements de perspectives dynamiques.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Cet article présente la création d'un jeu de données spécifique pour la détection et le suivi de personnes à l'aide d'un LiDAR monté sur une grue aérienne, en adaptant des détecteurs 3D existants pour combler le fossé entre les benchmarks de conduite et la vision industrielle en vue plongeante, tout en validant la faisabilité temps réel et en rendant les ressources disponibles publiquement.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Cet article propose un cadre d'apprentissage faible supervisé basé sur des prototypes et interprétable pour le grading du cancer de la prostate, conçu pour imiter le raisonnement des pathologistes et améliorer la fiabilité des diagnostics assistés par ordinateur.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Ce papier présente TimeWarp, un benchmark évaluant la robustesse des agents web face aux évolutions de l'interface, et propose TimeTraj, un algorithme utilisant la distillation de plans sur plusieurs versions d'interface pour améliorer significativement leurs performances.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Cet article présente un cadre de pré-entraînement axé sur la localisation, intégrant des tâches de référence automatique et de légendage ancré, pour améliorer la capacité des modèles de vision à détecter et raisonner sur les changements cliniques subtils dans les images radiographiques médicales via la réponse aux questions visuelles différentielles.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Ce papier présente VisionPangu, un assistant multimodal compact de 1,7 milliard de paramètres qui améliore la génération de légendes d'images détaillées grâce à un alignement multimodal efficace et à l'utilisation de descriptions humaines denses du jeu de données DOCCI, démontrant ainsi qu'une mise à l'échelle agressive n'est pas nécessaire pour obtenir des performances compétitives.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Cet article propose un nouveau modèle de caméra intégrant un paramètre de rétrécissement pour simuler les effets de perspective dans la régression de modèles morphables 3D, permettant ainsi d'améliorer le recalage de visages en gros plan, notamment ceux capturés par des caméras montées sur la tête, tout en conservant la stabilité des approches orthographiques traditionnelles.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Le papier présente BiEvLight, un cadre d'apprentissage hiérarchique et orienté tâche qui résout le couplage bruit-signal dans l'amélioration d'images en faible luminosité en reformulant le débruitage des événements comme un problème d'optimisation bi-niveau contraint par la tâche d'amélioration, surpassant ainsi les méthodes de l'état de l'art.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Ce papier présente 3D-RFT, un cadre pionnier d'affinement par renforcement qui étend l'apprentissage par renforcement avec récompenses vérifiables à la compréhension de scènes 3D vidéo en optimisant directement les modèles multimodaux selon des métriques d'évaluation spécifiques, surpassant ainsi les approches existantes et des modèles plus grands sur diverses tâches de perception et de raisonnement 3D.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Le papier présente VideoHV-Agent, un cadre multi-agents qui améliore la compréhension des vidéos longues en reformulant le raisonnement comme un processus structuré de formulation d'hypothèses et de vérification, surpassant ainsi les méthodes existantes en précision, en interprétabilité et en efficacité computationnelle.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Le papier présente Wallaroo, un modèle autoregressif simple qui unifie la compréhension, la génération et l'édition multimodales grâce à la prédiction de jetons suivants, en supportant des résolutions multiples et le bilinguisme chinois-anglais.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Le papier présente TAPFormer, un cadre de suivi de points arbitraires robuste qui fusionne de manière asynchrone et adaptative des images et des flux d'événements pour surmonter les problèmes d'alignement temporel et de défaillance des modalités, tout en introduisant un nouveau jeu de données réel pour valider ses performances supérieures sur des benchmarks standards.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Le papier présente MultiGO++, un cadre novateur de reconstruction 3D de humains vêtus à partir d'une seule image qui surpasse les méthodes existantes en surmontant leurs limitations texturales, géométriques et systémiques grâce à une collaboration efficace entre géométrie et texture.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Le papier présente Lens2Zernike, un cadre d'apprentissage profond physiquement cohérent qui récupère de manière aveugle les paramètres optiques à partir d'une seule image floue en intégrant une supervision multi-tâche sur trois domaines optiques distincts, permettant ainsi une déconvolution non aveugle stable et une restauration supérieure des détails sur les appareils mobiles.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Cette étude propose une évaluation à grande échelle des modèles de restauration d'images génératifs, révélant un changement de paradigme où le défi principal évolue de la pénurie de détails vers le contrôle de la qualité et de la sémantique pour éviter la sur-génération.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Le papier présente Tell2Adapt, un cadre unifié d'adaptation de domaine non supervisée sans source pour la segmentation d'images médicales qui exploite les connaissances d'un modèle de fondation visuel via des régularisations de prompts contextuels et un raffinement de plausibilité visuelle pour surpasser les méthodes existantes sur une large gamme de cibles anatomiques.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Cet article propose un cadre de segmentation sémantique généralisable et un nouveau jeu de données de référence, Semap, pour traiter efficacement la diversité des collections de cartes historiques, démontrant ainsi la viabilité d'une approche axée sur la diversité pour l'intégration de ces archives dans les études géohistoriques.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Cet article présente IRTTA, une méthode d'adaptation au test qui améliore la segmentation d'images médicales en exploitant les reconstructions intermédiaires de la tomographie par cohérence optique pour ajuster dynamiquement les paramètres d'un réseau de segmentation figé sans modifier le processus de reconstruction ni le modèle initial.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Le papier présente CoIn3D, un cadre généralisable pour la détection d'objets 3D multi-caméras qui améliore le transfert vers des configurations inédites en intégrant explicitement les disparités des priors spatiaux (intrinsèques, extrinsèques et agencement) via une modulation de caractéristiques spatiales et une augmentation de données par synthèse d'images.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Cet article propose CLIP-PZSL, un cadre d'apprentissage zéro-shot piloté par CLIP qui gère les étiquettes ambiguës en fusionnant les caractéristiques d'instances et de labels via un bloc d'extraction sémantique et une fonction de perte partielle pour identifier progressivement les vérités terrain et améliorer l'alignement sémantique.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

← Précédent Suivant →