EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Dit paper introduceert SynHLMA, een nieuw raamwerk dat natuurlijke taalinstructies omzet in realistische handbewegingen voor het manipuleren van gearticuleerde objecten door middel van een discrete interactierepresentatie en een taalmodel, wat leidt tot superieure prestaties in het genereren, voorspellen en interpoleren van grijpsequenties voor toepassingen in robotica en virtuele realiteit.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Het artikel introduceert GraphKeeper, een nieuwe methode voor graf-domein-incrementeel leren die catastrofale vergetelheid aanpakt door kennisontvlechting en -behoud te combineren, waardoor state-of-the-art resultaten worden behaald met minimale vergetelheid en naadloze integratie met graf-fondamentmodellen.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI