GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

Dit paper introduceert GPT4o-Receipt, een dataset en onderzoek dat aantoont dat mensen ondanks hun betere visuele waarneming AI gegenereerde bonnen minder goed kunnen detecteren dan AI-modellen, omdat de belangrijkste aanwijzingen rekenfouten zijn die voor het menselijk oog onzichtbaar maar voor machines direct verifieerbaar zijn.

Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta2026-03-13🤖 cs.AI

Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

Dit paper introduceert Verified Multi-Agent Orchestration (VMAO), een framework dat complexe queries oplost door deze te ontleden in een DAG van deelvragen, deze parallel uit te voeren via gespecialiseerde agenten en de resultaten via een iteratieve verificatie- en replan-cyclus te waarborgen, wat leidt tot aanzienlijk betere antwoordkwaliteit dan een enkel-agent-baseline.

Xing Zhang, Yanwei Cui, Guanghui Wang, Qucy Wei Qiu, Ziyuan Li, Fangwei Han, Yajing Huang, Hengzhi Qiu, Bin Zhu, Peiyang He2026-03-13🤖 cs.AI

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Deze paper introduceert een neuro-symbolisch VLM-agentkader dat gebruikmaakt van een Event Logic Tree (ELT) om semantische beschrijvingen van gebeurtenissen in meervariabele tijdreeksen te koppelen aan specifieke tijdsintervallen, waardoor nauwkeurige detectie en uitlegbaarheid worden bereikt met weinig tot geen trainingsdata.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

Deze paper introduceert INFACT, een diagnostische benchmark met bijna 10.000 vragen om hallucinaties in Video-LLMs te evalueren op zowel trouw aan video-inhoud als feitelijke juistheid onder diverse verstoordingscondities, waarbij experimenten aantonen dat hoge prestaties in schone omstandigheden niet garanderen dat modellen betrouwbaar blijven bij visuele degradatie of tijdsinterventies.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen2026-03-13🤖 cs.AI

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

Dit paper introduceert KEPo, een nieuwe aanvalsmethode die de kwetsbaarheid van GraphRAG-systemen benut door vergiftigde kennis in een kennisgrafiek te injecteren via vervalste evolutiepaden, waardoor grote taalmodellen worden gemanipuleerd tot het genereren van schadelijke antwoorden met een aanzienlijk hogere succeskans dan bestaande methoden.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

Dit artikel introduceert MADA, een door grote taalmodellen aangedreven multi-agent framework dat geautomatiseerde ontwerpoplossingen voor complexe wetenschappelijke uitdagingen, zoals het onderdrukken van Richtmyer-Meshkov-instabiliteiten, mogelijk maakt door gespecialiseerde agenten te coördineren voor het beheren van HPC-simulaties en het iteratief optimaliseren van ontwerpen.

Harshitha Menon, Charles F. Jekel, Kevin Korner, Brian Gunnarson, Nathan K. Brown, Michael Stees, M. Giselle Fernandez-Godino, Walter Nissen, Meir H. Shachar, Dane M. Sterbentz, William J. Schill, Yue Hao, Robert Rieben, William Quadros, Steve Owen, Scott Mitchell, Ismael D. Boureima, Jonathan L. Belof2026-03-13🤖 cs.AI

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

Dit paper introduceert FBCIR, een methode om focusonevenwichtigheden in composed image retrieval-modellen te diagnosticeren en te verhelpen door middel van een dataverrijkingswerkstroom met zorgvuldig geselecteerde negatieve voorbeelden, wat leidt tot robuustere prestaties in uitdagende scenario's.

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Dit paper introduceert MANSION, het eerste taalgestuurde raamwerk voor het genereren van realistische, meervoudige verdiepingen tellende 3D-gebouwen, en introduceert MansionWorld, een dataset met meer dan 1.000 diverse gebouwen, om langdurige robottaken die complexe ruimtelijke redenering vereisen te evalueren.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Het RoboClaw-framework introduceert een agentydige aanpak die datacollectie, beleidslernen en uitvoering verenigt via een VLM-gestuurde controller met 'Entangled Action Pairs', waardoor robuuste, langdurige robottaken met aanzienlijk minder menselijke tussenkomst en een hogere slagingskans mogelijk worden.

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI