cs.AI papers | Gist.Science

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Dit artikel presenteert een innovatieve aanpak waarbij AI gegenereerde zang en virtuele avatars worden gebruikt om studiegidsen in een aantrekkelijk audiovisueel formaat te presenteren, wat volgens de resultaten de betrokkenheid van studenten verhoogt en de retentie van belangrijke cursusinformatie verbetert.

Xinxing Wu2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Dit artikel introduceert CMASE, een raamwerk voor computationele multi-agent-samenlevingsexperimenten dat generatieve agentmodellen combineert met virtuele etnografie om onderzoekers in staat te stellen zich als geïntegreerde deelnemers te begeven in virtuele sociale omgevingen voor causaal onderbouwde interventiemodellering.

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Dit paper introduceert VistaWise, een kostenefficiënte agent voor Minecraft die een cross-modale kennisgrafiek en een gespecialiseerd objectdetectiemodel combineert om de afhankelijkheid van grote hoeveelheden trainingsdata te verminderen en tegelijkertijd state-of-the-art prestaties te leveren.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang2026-03-11🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Dit paper introduceert SEER, een zelfoptimaliserend framework dat de Chain-of-Thought-redenering van grote taalmodellen adaptief comprimeert om de rekenkosten en latentie te verlagen zonder in te leveren op de nauwkeurigheid.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Dit artikel demonstreert hoe AlphaEvolve, een LLM-gebaseerd code-mutatieagent, wordt ingezet om nieuwe, sterkere onbenaderbaarheidsresultaten te bewijzen voor problemen zoals MAX-CUT, MAX-4-CUT en het TSP, waarbij het agent ook zelf de verificatieprocedures optimaliseert om de hoge rekenkosten te overwinnen.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Dit artikel introduceert VoiceBridge, een efficiënt één-staps latent bridge-model dat diverse spraakhersteltaken, zoals ruisreductie en super-resolutie, verenigt in één generatief proces voor het reconstrueren van hoogwaardige 48 kHz spraak zonder distillatie.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Dit paper introduceert v-HUB, een nieuw benchmark voor het begrijpen van videohumor dat de beperkingen van multimodale modellen blootlegt en aantoont dat het integreren van geluid de prestaties verbetert.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Het paper introduceert RECODE, een agentisch framework dat multimodale redenering verbetert door visuele elementen zoals grafieken en diagrammen om te zetten in verifieerbare uitvoerbare code via een proces van afbeelding naar code en terug.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Het artikel introduceert REAP, een nieuwe methode voor het comprimeren van MoE-modellen door experts te verwijderen in plaats van ze te samenvoegen, wat leidt tot superieure prestaties op generatieve taken zoals codegeneratie door het behoud van de fijne routeringscontrole.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Het paper introduceert RL-100, een robuust real-world reinforcement learning-framework dat diffusiebeleid combineert met PPO en consistentiedistillatie om robotmanipulatietaken met 100% succes en menselijke snelheid uit te voeren, zelfs onder dynamische veranderingen en zonder hertraining.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Dit paper introduceert SynHLMA, een nieuw raamwerk dat natuurlijke taalinstructies omzet in realistische handbewegingen voor het manipuleren van gearticuleerde objecten door middel van een discrete interactierepresentatie en een taalmodel, wat leidt tot superieure prestaties in het genereren, voorspellen en interpoleren van grijpsequenties voor toepassingen in robotica en virtuele realiteit.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Het artikel introduceert GraphKeeper, een nieuwe methode voor graf-domein-incrementeel leren die catastrofale vergetelheid aanpakt door kennisontvlechting en -behoud te combineren, waardoor state-of-the-art resultaten worden behaald met minimale vergetelheid en naadloze integratie met graf-fondamentmodellen.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Dit paper introduceert gestructureerde matrix-schaling met geavanceerde regularisatie en optimalisatie om overfitting bij multi-class kalibratie te voorkomen en zo aanzienlijk betere prestaties te behalen dan bestaande methoden zoals temperatuur- en vector-schaling.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

← Vorige Volgende →