EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Dit artikel introduceert TildeOpen LLM, een open-weight foundation model met 30 miljard parameters dat door middel van curriculum learning en data-oversampling is getraind om de prestaties en taalevenwicht voor 34 Europese talen, met name minder gebruikte talen, aanzienlijk te verbeteren zonder extra rekencapaciteit.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Deze studie, gebaseerd op een evaluatie van 172 miljard tokens, onthult dat hallucinaties in documentgebaseerde vragenbeantwoording aanzienlijk toenemen bij langere contextvensters en dat modelkeuze de belangrijkste factor is, terwijl hardwareplatforms en temperatuur-instellingen slechts een beperkt effect hebben op de nauwkeurigheid.

JV Roig2026-03-10💬 cs.CL