cs.CV articles | Gist.Science

SURE: Semi-dense Uncertainty-REfined Feature Matching

Le papier présente SURE, un cadre de matching de caractéristiques semi-denses qui améliore la fiabilité des correspondances d'images en modélisant conjointement les incertitudes aléatoire et épistémique pour corriger les erreurs de confiance excessive dans des scénarios difficiles.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Ce papier propose un cadre novateur appelé Prompt-Driven Noise Generation (PNG) qui utilise l'apprentissage de représentations de bruit piloté par des invites pour synthétiser des images bruyantes réalistes en sRGB sans dépendre des métadonnées de la caméra, améliorant ainsi la généralisation et l'efficacité du débruitage dans des scénarios réels.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

En analysant une base de données inédite de 119 561 lancers professionnels, cette étude démontre qu'il est possible de prédire avec 80,4 % de précision le type de lancer à partir de la cinématique corporelle 3D extraite de vidéos monoscopiques, en identifiant la mécanique du haut du corps comme le facteur prédictif dominant tout en établissant une limite empirique de séparabilité pour les variantes de prise.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Cet article propose un cadre novateur en deux étapes pour la génération automatique de rapports en tomodensitométrie, qui améliore les performances de l'état de l'art en apprenant des correspondances sémantiques structure-à-structure entre les images et les textes grâce à un contraste image-texte spécifique aux structures et à des mécanismes de réduction du bruit.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Le papier propose DeformTrace, un modèle d'espace d'états déformable enrichi de mécanismes de relais et de dynamiques adaptatives, qui surpasse les méthodes existantes pour la localisation temporelle précise des falsifications dans les vidéos et l'audio.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Cet article présente FedMEPD, un cadre d'apprentissage fédéré innovant qui utilise des encodeurs spécifiques aux modalités et un décodeur de fusion partiellement personnalisé pour surmonter l'hétérogénéité intermodale et répondre aux besoins de personnalisation dans la segmentation des tumeurs cérébrales multimodales.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Le papier propose FedAFD, un cadre d'apprentissage fédéré multimodal qui améliore les performances des clients et du serveur en utilisant une stratégie d'alignement adversarial bi-niveau et une distillation d'ensemble guidée par la similarité pour surmonter les hétérogénéités de données et de modèles tout en préservant la confidentialité.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Cet article propose une méthode simple et efficace pour améliorer la segmentation d'images avec les Vision Transformers en modulant l'auto-attention par un noyau gaussien apprenable afin de privilégier les détails spatiaux locaux sans compromettre les performances de classification.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Le papier présente FC-VFI, une méthode d'interpolation de frames vidéo qui utilise un modèle de diffusion pré-entraîné, une stratégie de modélisation temporelle et une correspondance sémantique pour générer des vidéos à haute fréquence d'images (jusqu'à 240 FPS) avec une fidélité visuelle et une cohérence temporelle supérieures.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Le papier propose AdaIAT, une méthode qui atténue les hallucinations des modèles vision-langage de grande taille en adaptivement augmentant l'attention vers le texte généré, réduisant ainsi significativement les erreurs tout en préservant la cohérence linguistique.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Cet article propose une méthode d'optimisation de textures adverses 3D cohérentes avec le point de vue, utilisant un rendu différentiable et une stratégie de curriculum de grossier à fin, pour révéler et exploiter les vulnérabilités des politiques visuomotrices robotiques face à des changements de perspectives dynamiques.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Cet article présente la création d'un jeu de données spécifique pour la détection et le suivi de personnes à l'aide d'un LiDAR monté sur une grue aérienne, en adaptant des détecteurs 3D existants pour combler le fossé entre les benchmarks de conduite et la vision industrielle en vue plongeante, tout en validant la faisabilité temps réel et en rendant les ressources disponibles publiquement.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Cet article propose un cadre d'apprentissage faible supervisé basé sur des prototypes et interprétable pour le grading du cancer de la prostate, conçu pour imiter le raisonnement des pathologistes et améliorer la fiabilité des diagnostics assistés par ordinateur.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Ce papier présente TimeWarp, un benchmark évaluant la robustesse des agents web face aux évolutions de l'interface, et propose TimeTraj, un algorithme utilisant la distillation de plans sur plusieurs versions d'interface pour améliorer significativement leurs performances.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Cet article présente un cadre de pré-entraînement axé sur la localisation, intégrant des tâches de référence automatique et de légendage ancré, pour améliorer la capacité des modèles de vision à détecter et raisonner sur les changements cliniques subtils dans les images radiographiques médicales via la réponse aux questions visuelles différentielles.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Ce papier présente VisionPangu, un assistant multimodal compact de 1,7 milliard de paramètres qui améliore la génération de légendes d'images détaillées grâce à un alignement multimodal efficace et à l'utilisation de descriptions humaines denses du jeu de données DOCCI, démontrant ainsi qu'une mise à l'échelle agressive n'est pas nécessaire pour obtenir des performances compétitives.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Cet article propose un nouveau modèle de caméra intégrant un paramètre de rétrécissement pour simuler les effets de perspective dans la régression de modèles morphables 3D, permettant ainsi d'améliorer le recalage de visages en gros plan, notamment ceux capturés par des caméras montées sur la tête, tout en conservant la stabilité des approches orthographiques traditionnelles.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Le papier présente BiEvLight, un cadre d'apprentissage hiérarchique et orienté tâche qui résout le couplage bruit-signal dans l'amélioration d'images en faible luminosité en reformulant le débruitage des événements comme un problème d'optimisation bi-niveau contraint par la tâche d'amélioration, surpassant ainsi les méthodes de l'état de l'art.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Ce papier présente 3D-RFT, un cadre pionnier d'affinement par renforcement qui étend l'apprentissage par renforcement avec récompenses vérifiables à la compréhension de scènes 3D vidéo en optimisant directement les modèles multimodaux selon des métriques d'évaluation spécifiques, surpassant ainsi les approches existantes et des modèles plus grands sur diverses tâches de perception et de raisonnement 3D.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Le papier présente VideoHV-Agent, un cadre multi-agents qui améliore la compréhension des vidéos longues en reformulant le raisonnement comme un processus structuré de formulation d'hypothèses et de vérification, surpassant ainsi les méthodes existantes en précision, en interprétabilité et en efficacité computationnelle.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

← Précédent Suivant →