Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Dit artikel introduceert een unificerend trainingskader dat een entropie-gedreven curriculumleerstrategie combineert met multi-task learning om de menselijke mobiliteitsvoorspelling te verbeteren door trajectvoorspelbaarheid te kwantificeren en afstand en richting als aanvullende taken te integreren, wat leidt tot state-of-the-art prestaties en een tot 2,92-voudig snellere convergentie.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Synthetic Homes: An Accessible Multimodal Pipeline for Producing Residential Building Data with Generative AI

Dit artikel introduceert een modulaire, multimodale pipeline die gebruikmaakt van generatieve kunstmatige intelligentie om realistische, synthetische data over woongebouwen te genereren op basis van publiek toegankelijke beelden, waardoor de afhankelijkheid van kostbare of privacygevoelige bronnen voor energie- en bouwsimulatie wordt verminderd.

Jackson Eshbaugh, Chetan Tiwari, Jorge Silveyra2026-03-10🤖 cs.LG

MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG