Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Dit paper introduceert Wiki-R1, een curriculum reinforcement learning-framework dat door middel van gecontroleerde data-generatie en een slimme steekproefstrategie multimodale redeneervermogens van modellen verbetert voor kennisgebaseerde visuele vraagbeantwoording, wat leidt tot nieuwe state-of-the-art resultaten op benchmarks zoals Encyclopedic VQA en InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Fusion4CA is een nieuwe methode voor 3D-objectdetectie die de prestaties van bestaande LiDAR-Camera-fusiemodellen aanzienlijk verbetert door de visuele informatie via een contrastieve uitlijningsmodule en een camera-auxiliaire tak volledig te benutten, wat resulteert in een hogere nauwkeurigheid met minder trainingsrondes en een minimale toename van de inferentieparameters.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Het artikel introduceert MobileFetalCLIP, een methode voor selectieve repulsieve kennisdistillatie die een compact model van 11,4 miljoen parameters ontwikkelt dat de prestaties van een groot 304M-parameter leraarmodel op het gebied van foetale echografieanalyse overtreft en real-time implementatie op mobiele apparaten mogelijk maakt.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI