MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Dit paper introduceert MM-Zero, het eerste RL-gebaseerde framework dat Vision Language Models zonder enige trainingsdata zelf kan laten evolueren door middel van een unieke drie-rollen architectuur (voorsteller, coder en solver) die samenwerken om visuele concepten te genereren en redeneervermogen te verbeteren.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs