cs.CV articles | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

Le papier présente FTSplat, un réseau de type feed-forward qui génère directement des surfaces triangulaires continues à partir d'images multi-vues calibrées, permettant une reconstruction 3D haute fidélité et prête pour la simulation en une seule passe sans optimisation par scène.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Ce papier présente OD-RASE, un cadre ontologique couplé à des modèles de langage et de diffusion visuels pour identifier proactivement les infrastructures routières à l'origine d'accidents et générer automatiquement des propositions d'amélioration afin de renforcer la sécurité des systèmes de conduite autonome.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Ce papier propose un Réseau de Masquage Résiduel combinant un réseau résiduel profond et une architecture de type Unet pour améliorer la reconnaissance des expressions faciales en affinant les cartes de caractéristiques via un mécanisme de masquage, atteignant ainsi les performances les plus avancées sur les jeux de données FER2013 et VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Le papier présente SLER-IR, un cadre de restauration d'images tout-en-un qui améliore les performances en utilisant un routage dynamique d'experts par couche sur une sphère, une intégration de dégradations uniformes par apprentissage contrastif et une fusion de granularité globale-local pour surmonter les interférences de caractéristiques et les biais géométriques.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Cet article présente une nouvelle méthode robuste d'estimation de l'inclinaison des documents basée sur une projection radiale adaptative du spectre de Fourier, accompagnée de la création du jeu de données DISE-2021 et d'une analyse comparative démontrant la supériorité de cette approche.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Le papier présente LucidNFT, un cadre d'optimisation par préférence multi-récompenses ancré sur l'image basse résolution qui améliore la super-résolution d'images réelles générative en introduisant un évaluateur de fidélité robuste, une stratégie de normalisation des avantages découplée et un vaste ensemble de données de dégradations réelles pour éviter les hallucinations sémantiques tout en préservant la structure originale.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Le papier propose E-AdaPrune, un cadre d'élagage adaptatif piloté par l'énergie qui ajuste dynamiquement le budget de tokens visuels en fonction de la densité d'information des images via leur spectre de valeurs singulières, améliorant ainsi l'efficacité et les performances des modèles vision-langage sans paramètres supplémentaires.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Ce papier présente VINE, un cadre unifié pour la segmentation à few-shot qui améliore la cohérence des prototypes et la discrimination de premier plan en intégrant des graphes spatiaux et de vue avec des mécanismes d'attention croisée pour surmonter les défis liés aux variations d'apparence et de point de vue.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Le papier présente OVGGT, un cadre d'inférence sans entraînement qui permet la reconstruction géométrique 3D de vidéos en flux continu d'une durée arbitraire avec une consommation de mémoire et de calcul constante, en surmontant les limitations de coût quadratique et d'accumulation de cache des modèles géométriques existants grâce à des mécanismes de cache auto-sélectif et de protection dynamique des ancres.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Ce papier propose un cadre novateur de reconnaissance d'objets à vocabulaire ouvert basé sur une stratégie en deux étapes (segmentation et reconnaissance) utilisant CLIP et une méthode CNN/MLP avec décomposition en valeurs singulières, démontrant que l'encodage CLIP sans entraînement atteint les performances les plus élevées sur plusieurs jeux de données de référence.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Ce papier présente l'encodage Squelette-vers-Image (S2I), une méthode novatrice qui transforme les séquences de squelettes en données de type image pour permettre l'application de modèles de vision pré-entraînés à grande échelle à l'apprentissage auto-supervisé de représentations squelettiques, surmontant ainsi les défis liés à la rareté des données et à l'hétérogénéité des formats.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Ce papier propose CR-QAT, un cadre d'entraînement quantifié intégrant une optimisation progressive et une distillation relationnelle centrée sur le texte, qui permet de préserver l'alignement vision-langage et les structures relationnelles dans les détecteurs d'objets à vocabulaire ouvert fortement compressés, surpassant ainsi les méthodes existantes sur des benchmarks zero-shot.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

PROBE est un descripteur de reconnaissance de lieu LiDAR sans apprentissage qui modélise probabilistiquement l'occupation en vue aérienne (BEV) et intègre une translation analytique robuste pour atteindre des performances de pointe parmi les méthodes non supervisées sur des données multi-capteurs.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Le papier présente ProCap, un cadre innovant qui améliore la légende de changement en modélisant les dynamiques temporelles du processus de transformation via un encodeur de procédure entraîné sur des images clés générées, plutôt que de se limiter à une comparaison statique d'images.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Ce papier présente DynUAV, un nouveau benchmark exigeant pour le suivi multi-objets depuis des drones, conçu pour combler le manque de scénarios complexes et de mouvements rapides dans les évaluations actuelles grâce à un vaste ensemble de données annotées et des défis réalistes liés à la dynamique de la caméra.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Cet article présente un cadre novateur pour la colorisation de croquis à haute résolution et désenchevêtrée qui résout fondamentalement le problème du décalage de distribution grâce à une architecture à double branche, une régularisation Gram et l'intégration de réseaux spécifiques à l'anime pour surpasser les méthodes existantes en qualité et en contrôlabilité.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Cette étude présente HarvestFlex, le premier système à transférer des politiques vision-langage-action vers la récolte réelle de fraises en serre, atteignant un taux de réussite de 74 % grâce à une adaptation de modèle sur seulement 3,71 heures de données téléopérées et une architecture de perception RGB sans calibration géométrique explicite.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Ce rapport présente une méthode d'inspection optique automatisée utilisant des architectures d'apprentissage profond (YOLOv8, ResNet-152, EfficientNet-b4) sur un jeu de données de 4 414 images pour détecter les défauts critiques des instruments chirurgicaux fabriqués au Pakistan, afin d'améliorer la sécurité des patients et la qualité de production.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Ce papier présente MM-ISTS, un cadre multimodal innovant qui améliore la prévision des séries temporelles irrégulièrement échantillonnées en intégrant des modèles de langage vision-texte pour capturer des motifs temporels complexes et un contexte sémantique riche grâce à un mécanisme d'encodage en deux étapes et une alignement adaptatif des modalités.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

Le papier présente RePer-360, un cadre d'auto-modulation qui adapte efficacement les modèles de profondeur préentraînés sur des images en perspective au domaine panoramique en préservant leurs connaissances initiales, permettant ainsi d'obtenir des performances supérieures avec seulement 1 % des données d'entraînement.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Précédent Suivant →

cs.CV