cs.AI papers | Gist.Science

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Dit artikel presenteert een geometrische taxonomie van hallucinaties in grote taalmodellen die drie fouttypen onderscheidt en twee detectiemethoden introduceert, waarbij wordt aangetoond dat bestaande benchmarks voor feitelijke fouten vaak worden beïnvloed door stijlconfounds in plaats van echte semantische afwijkingen.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon verbetert Muon-gebaseerde optimalisatoren door de orthogonalisatie te behouden en tegelijkertijd de stabiliteit te waarborgen via globale RMS-calibratie en energiegebaseerde trust-region-clipping, wat resulteert in snellere convergentie en robuustheid zonder warmup-fasen.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Dit artikel introduceert de Mean Velocity Policy (MVP), een generatieve beleidsfunctie die een gemiddeld snelheidsveld modelleert met een onmiddellijke snelheidsbeperking om expressieve, deterministische actiegeneratie in één stap te bereiken, wat resulteert in state-of-the-art prestaties en aanzienlijke snelheidswinst in robuuste manipulatietaken.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Dit paper introduceert Pawsterior, een variational flow-matching framework dat de beperkingen van gestructureerde domeinen en discrete latente structuren in simulatiegebaseerde inferentie (SBI) effectief aanpakt door een twee-zijdig variational model met affiene geometrische beperkingen te gebruiken.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Dit paper introduceert XTF, een uitlegbaar framework dat ruis op token-niveau filtert door data bij te dragen aan drie attributen (redeneerbelang, kennisnoviteit en taakrelevantie) te analyseren en gradiënten te maskeren, wat de prestaties van afgestemde grote taalmodellen tot 13,7% verbetert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Dit paper introduceert LongAudio-RAG, een hybride raamwerk dat vraag-antwoordsystemen voor lange audio-opnames verbetert door Large Language Models te koppelen aan gestructureerde, tijdstempelgebonden geluidsgebeurtenissen in plaats van ruwe audio, wat resulteert in nauwkeurigere antwoorden met minder hallucinaties.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Het paper introduceert CogitoRAG, een cognitief gestuurd RAG-framework dat hallucinaties vermindert door menselijk episodisch geheugen na te bootsen via gist-gebaseerde kennisgrafiekconstructie, query-decompositie en semantische diffusie, wat leidt tot superieure prestaties op complexe vraag- en antwoordtaken.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Dit paper introduceert CondMedQA, het eerste benchmark voor conditioneel biomedisch vragen beantwoorden, en Condition-Gated Reasoning (CGR), een nieuw raamwerk dat kennisgrafiek-paden selectief activeert of verwijdert op basis van patiëntspecifieke omstandigheden om de betrouwbaarheid van medische redenering te verbeteren.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Dit paper introduceert methoden voor split-conformale voorspelling die, naast marginale dekking, ook operationele garanties bieden voor besluitvormingsfrequentie en foutblootstelling door middel van kleine-steekproefcorrecties, onafhankelijke audits en een geometrische analyse van de afwegingen tussen deze operationele grootheden.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Dit paper introduceert ABD, een benchmark voor het testen van grote taalmodellen op hun vermogen om zeldzame uitzonderingen af te leiden in eindige eerste-orde werelden om satisfiability te herstellen, waarbij evaluaties tonen dat hoewel de validiteit hoog is, er nog steeds significant tekort schiet in parsimonie en generalisatie.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Deze paper introduceert INDUCTION, een benchmark voor het synthetiseren van concepten in de eerste-orde logica binnen eindige structuren, die modelprestaties evalueert op basis van exacte modelcontrole en formulegrootte om inzicht te krijgen in generalisatiestrategieën.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Dit artikel introduceert een uitgebreid benchmarkkader voor multi-agent reinforcement learning in de CityLearn-omgeving, waarbij wordt vastgesteld dat decentrale training en uitvoering (DTDE) samen met tijdsafhankelijk leren superieure prestaties leveren op diverse duurzaamheids- en robuustheidskpi's voor stedelijke energiesystemen.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Deze paper introduceert MrBERT, een familie van moderne meertalige encodermodellen die door middel van vocabulaire-, domein- en dimensionale aanpassing, inclusief Matryoshka Representation Learning, state-of-the-art prestaties bereikt op Catalaanse en Spaanse taken en gespecialiseerde domeinen zoals biomedische en juridische toepassingen.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Dit paper introduceert ARLArena, een gestructureerd raamwerk voor het analyseren van trainingsstabiliteit in agentic reinforcement learning, en presenteert SAMPO, een nieuwe methode die instabiliteit aanpakt en robuuste prestaties garandeert voor LLM-gebaseerde agenten.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine is een geautomatiseerd, één-staps diffusiemodel dat de verfijning van atomaire structuren op basis van cryo-EM-dichtheidskaarten aanzienlijk versnelt en verbetert ten opzichte van traditionele methoden.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Dit artikel introduceert het concept 'vibe researching' en analyseert hoe AI-agenten met gespecialiseerde vaardigheden, zoals de scholar-skill-plugin, sociale wetenschappers kunnen versterken door repetitieve taken te automatiseren, terwijl ze beperkt blijven in theoretische originaliteit en tacite kennis, wat leidt tot nieuwe professionele uitdagingen en pedagogische crises.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

Dit artikel introduceert een wiskundige theorie die 'bipredictability' (P) als fundamentele maatstaf voor interactie definieert, waarbij wordt aangetoond dat huidige AI-systemen weliswaar handelen kunnen (agency), maar door het ontbreken van zelfmonitoring en adaptieve leercapaciteit nog geen ware intelligentie bezitten.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

← Vorige Volgende →