VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med introduceert een efficiënt kader voor het vooraf trainen van medische vision transformers met behulp van een bevroren groot taalmodel als gestructureerde leraar, wat resulteert in een lichtgewicht, alleen-vision model dat aanzienlijk betere prestaties levert dan bestaande methoden met minder data en zonder de zware taalmodelcomponent tijdens het gebruik.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

DexHiL is een nieuw mens-in-de-lus-framework dat de prestaties van vision-language-action-modellen voor dexterous manipulatie aanzienlijk verbetert door gecoördineerde menselijke interventies op arm en hand te integreren, wat leidt tot een gemiddelde stijging van 25% in slagingspercentages ten opzichte van traditionele offline-finetuning.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Dit paper introduceert DataFactory, een collaboratief multi-agent framework dat de beperkingen van bestaande Large Language Models voor tabelvraagbeantwoording overwint door gespecialiseerde agententeams te coördineren voor geautomatiseerde kennisomzetting en adaptieve planning, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en betrouwbaarheid.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

DuplexCascade is een VAD-vrije, gestreamde spraak-naar-spraak pipeline die volledige duplex-interactie mogelijk maakt door conventionele lange wisselgesprekken om te zetten in micro-turns met behulp van speciale controletokens, waardoor de intelligentie van een tekst-LLM behouden blijft terwijl de onderbrekingsproblemen van traditionele systemen worden opgelost.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI