Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Deze paper introduceert Skeleton-to-Image Encoding (S2I), een nieuwe methode die skeletdata omzet in afbeeldingen om zo krachtige, voorgetrainde visiemodellen te kunnen gebruiken voor zelftoezichthoudend leren van skeletrepresentaties en zo de uitdagingen van dataformaten en schaarste aan datasets aan te pakken.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Het artikel introduceert CR-QAT, een curriculum-gebaseerd raamwerk voor kwantisatiebewust trainen dat door middel van gefaseerde optimalisatie en relationele kennisdistillatie de prestaties van open-vocabulaire objectdetectie bij agressieve kwantisatie (zoals 4-bit) aanzienlijk verbetert zonder de visueel-taaluitlijning te verstoren.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Dit paper introduceert DynUAV, een nieuw en uitdagend benchmark voor multi-object tracking vanuit UAV-perspectief dat specifiek is ontworpen om de beperkingen van bestaande methoden bloot te leggen door complexe, dynamische bewegingen en ongunstige omstandigheden te simuleren.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Deze paper introduceert een nieuw raamwerk voor referentiegebaseerde kleuring van schetsen dat door middel van een dubbelvertakkingsarchitectuur en Gram-regularisatie de distributieshift tussen trainings- en inferentiegegevens direct minimaliseert, waardoor state-of-the-art prestaties worden bereikt in kwaliteit, resolutie en controleerbaarheid.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Dit technische rapport beschrijft een samenwerking met toonaangevende Pakistanese producenten om een automatisch optisch inspectiesysteem te ontwikkelen, dat gebruikmaakt van diepe leerarchitecturen zoals YOLOv8, ResNet-152 en EfficientNet-b4 om defecten in chirurgische instrumenten te detecteren en zo de patiëntveiligheid en productkwaliteit te waarborgen.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MOSIV: Multi-Object System Identification from Videos

Deze paper introduceert MOSIV, een nieuw raamwerk dat video's gebruikt om continue materiaaleigenschappen van meerdere objecten tegelijkertijd te identificeren via een differentieerbare simulator en een nieuw synthetisch benchmark, wat aanzienlijk betere resultaten oplevert dan bestaande methoden.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

StruVis is een nieuw framework dat de tekst-naar-beeldgeneratie verbetert door complexe prompts te analyseren via gestructureerde visuele representaties in plaats van tussenliggende afbeeldingen, waardoor het rekenvermogen van multimodale modellen wordt geoptimaliseerd zonder de hoge kosten van bestaande methoden.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs