BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Dit paper introduceert See, Plan, Rewind (SPR), een vooruitgangsgevoelig vision-language-action-framework dat robuuste robotmanipulatie bereikt door taken te onderbreken in verifieerbare mijlpalen en automatisch terug te keren naar een herstelpunt bij fouten, wat resulteert in state-of-the-art prestaties en generalisatie op uitdagende benchmarks.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Deze paper introduceert SpaceSense-Bench, een groot-schalig meer-modale benchmark met 136 satellietmodellen en nauwkeurige ground-truth annotaties gegenereerd in Unreal Engine 5, die dient om spacecraft-perceptie en pose-schatting te evalueren en aantoont dat het vergroten van de trainingsdiversiteit cruciaal is voor het verbeteren van prestaties op nieuwe doelen.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI