Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Deze paper introduceert LagMemo, een navigatiesysteem dat een taalgebaseerde 3D-Gaussian Splatting-geheugenstructuur gebruikt om robots in staat te stellen open-vocabulary en multi-doel visuele navigatie uit te voeren, wat resulteert in een aanzienlijke prestatieverbetering ten opzichte van de huidige stand van de techniek.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Deze studie introduceert MobiDock, een modulair zelfherconfigureerbaar systeem waarbij twee onafhankelijke robots zich via visiegebaseerd dokken en een schroefvergrendeling fysiek verbinden tot één stabiel bimanueel platform, wat de besturing vereenvoudigt en de prestaties ten opzichte van losse samenwerking aanzienlijk verbetert.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Dit paper introduceert CountOCC, een nieuw framework voor amodale objecttelling dat door middel van hiërarchische multimodale gidsing en een visuele equivalentiedoelstelling de door verduistering veroorzaakte fouten in bestaande methoden oplost en zo state-of-the-art prestaties bereikt op nieuwe, verduisterde datasets.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Het artikel introduceert Video2Layout, een framework dat met behulp van continue objectgrenskoördinaten in plaats van rasterkaarten een metrisch onderbouwde cognitieve kaart reconstrueert uit video's, waardoor de ruimtelijke redeneerprestaties van multimodale grote taalmodellen significant worden verbeterd.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs