OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Ce papier présente OD-RASE, un cadre ontologique couplé à des modèles de langage et de diffusion visuels pour identifier proactivement les infrastructures routières à l'origine d'accidents et générer automatiquement des propositions d'amélioration afin de renforcer la sécurité des systèmes de conduite autonome.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Le papier présente SLER-IR, un cadre de restauration d'images tout-en-un qui améliore les performances en utilisant un routage dynamique d'experts par couche sur une sphère, une intégration de dégradations uniformes par apprentissage contrastif et une fusion de granularité globale-local pour surmonter les interférences de caractéristiques et les biais géométriques.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Le papier présente LucidNFT, un cadre d'optimisation par préférence multi-récompenses ancré sur l'image basse résolution qui améliore la super-résolution d'images réelles générative en introduisant un évaluateur de fidélité robuste, une stratégie de normalisation des avantages découplée et un vaste ensemble de données de dégradations réelles pour éviter les hallucinations sémantiques tout en préservant la structure originale.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Le papier présente OVGGT, un cadre d'inférence sans entraînement qui permet la reconstruction géométrique 3D de vidéos en flux continu d'une durée arbitraire avec une consommation de mémoire et de calcul constante, en surmontant les limitations de coût quadratique et d'accumulation de cache des modèles géométriques existants grâce à des mécanismes de cache auto-sélectif et de protection dynamique des ancres.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Ce papier présente l'encodage Squelette-vers-Image (S2I), une méthode novatrice qui transforme les séquences de squelettes en données de type image pour permettre l'application de modèles de vision pré-entraînés à grande échelle à l'apprentissage auto-supervisé de représentations squelettiques, surmontant ainsi les défis liés à la rareté des données et à l'hétérogénéité des formats.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Ce papier propose CR-QAT, un cadre d'entraînement quantifié intégrant une optimisation progressive et une distillation relationnelle centrée sur le texte, qui permet de préserver l'alignement vision-langage et les structures relationnelles dans les détecteurs d'objets à vocabulaire ouvert fortement compressés, surpassant ainsi les méthodes existantes sur des benchmarks zero-shot.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Ce papier présente DynUAV, un nouveau benchmark exigeant pour le suivi multi-objets depuis des drones, conçu pour combler le manque de scénarios complexes et de mouvements rapides dans les évaluations actuelles grâce à un vaste ensemble de données annotées et des défis réalistes liés à la dynamique de la caméra.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Cet article présente un cadre novateur pour la colorisation de croquis à haute résolution et désenchevêtrée qui résout fondamentalement le problème du décalage de distribution grâce à une architecture à double branche, une régularisation Gram et l'intégration de réseaux spécifiques à l'anime pour surpasser les méthodes existantes en qualité et en contrôlabilité.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Cette étude présente HarvestFlex, le premier système à transférer des politiques vision-langage-action vers la récolte réelle de fraises en serre, atteignant un taux de réussite de 74 % grâce à une adaptation de modèle sur seulement 3,71 heures de données téléopérées et une architecture de perception RGB sans calibration géométrique explicite.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Ce rapport présente une méthode d'inspection optique automatisée utilisant des architectures d'apprentissage profond (YOLOv8, ResNet-152, EfficientNet-b4) sur un jeu de données de 4 414 images pour détecter les défauts critiques des instruments chirurgicaux fabriqués au Pakistan, afin d'améliorer la sécurité des patients et la qualité de production.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Ce papier présente MM-ISTS, un cadre multimodal innovant qui améliore la prévision des séries temporelles irrégulièrement échantillonnées en intégrant des modèles de langage vision-texte pour capturer des motifs temporels complexes et un contexte sémantique riche grâce à un mécanisme d'encodage en deux étapes et une alignement adaptatif des modalités.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360^\circ Depth Estimation via Self-Modulation

Le papier présente RePer-360, un cadre d'auto-modulation qui adapte efficacement les modèles de profondeur préentraînés sur des images en perspective au domaine panoramique en préservant leurs connaissances initiales, permettant ainsi d'obtenir des performances supérieures avec seulement 1 % des données d'entraînement.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs