cs.AI papers | Gist.Science

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Dit artikel introduceert een unificerend pretrainingsframework op basis van diffusie voor hersengrafen, dat semantisch betekenisvolle connectiviteitspatronen behoudt en globale structurele informatie vastlegt om robuustere representaties te leren dan bestaande methoden.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Dit paper introduceert CoCoA, een trainingsvrije decoderingsalgoritme dat hallucinaties in grote taalmodellen vermindert door de inconsistentie van representaties tussen de interne lagen te detecteren en te straffen, waardoor de feitelijke juistheid van de output zonder hertraining wordt verbeterd.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Dit paper introduceert SToRM, een supervisie-gedreven raamwerk voor tokenreductie in multimodale LLM's dat de rekenefficiëntie van end-to-end autonoom rijden met tot 30x verbetert terwijl de prestaties van het gebruik van alle tokens behouden blijven.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Dit paper introduceert AGPS, een framework dat de sample-efficiëntie van robotreinforcement learning verbetert door menselijke supervisie te vervangen door een multimodaal agent die als semantisch wereldmodel fungeert voor schaalbare, arbeidsvrije training.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Dit artikel presenteert een geometrische taxonomie van hallucinaties in grote taalmodellen die drie fouttypen onderscheidt en twee detectiemethoden introduceert, waarbij wordt aangetoond dat bestaande benchmarks voor feitelijke fouten vaak worden beïnvloed door stijlconfounds in plaats van echte semantische afwijkingen.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon verbetert Muon-gebaseerde optimalisatoren door de orthogonalisatie te behouden en tegelijkertijd de stabiliteit te waarborgen via globale RMS-calibratie en energiegebaseerde trust-region-clipping, wat resulteert in snellere convergentie en robuustheid zonder warmup-fasen.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Dit artikel introduceert de Mean Velocity Policy (MVP), een generatieve beleidsfunctie die een gemiddeld snelheidsveld modelleert met een onmiddellijke snelheidsbeperking om expressieve, deterministische actiegeneratie in één stap te bereiken, wat resulteert in state-of-the-art prestaties en aanzienlijke snelheidswinst in robuuste manipulatietaken.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Dit paper introduceert Pawsterior, een variational flow-matching framework dat de beperkingen van gestructureerde domeinen en discrete latente structuren in simulatiegebaseerde inferentie (SBI) effectief aanpakt door een twee-zijdig variational model met affiene geometrische beperkingen te gebruiken.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Dit paper introduceert XTF, een uitlegbaar framework dat ruis op token-niveau filtert door data bij te dragen aan drie attributen (redeneerbelang, kennisnoviteit en taakrelevantie) te analyseren en gradiënten te maskeren, wat de prestaties van afgestemde grote taalmodellen tot 13,7% verbetert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Dit paper introduceert LongAudio-RAG, een hybride raamwerk dat vraag-antwoordsystemen voor lange audio-opnames verbetert door Large Language Models te koppelen aan gestructureerde, tijdstempelgebonden geluidsgebeurtenissen in plaats van ruwe audio, wat resulteert in nauwkeurigere antwoorden met minder hallucinaties.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Het paper introduceert CogitoRAG, een cognitief gestuurd RAG-framework dat hallucinaties vermindert door menselijk episodisch geheugen na te bootsen via gist-gebaseerde kennisgrafiekconstructie, query-decompositie en semantische diffusie, wat leidt tot superieure prestaties op complexe vraag- en antwoordtaken.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Dit paper introduceert CondMedQA, het eerste benchmark voor conditioneel biomedisch vragen beantwoorden, en Condition-Gated Reasoning (CGR), een nieuw raamwerk dat kennisgrafiek-paden selectief activeert of verwijdert op basis van patiëntspecifieke omstandigheden om de betrouwbaarheid van medische redenering te verbeteren.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Dit paper introduceert methoden voor split-conformale voorspelling die, naast marginale dekking, ook operationele garanties bieden voor besluitvormingsfrequentie en foutblootstelling door middel van kleine-steekproefcorrecties, onafhankelijke audits en een geometrische analyse van de afwegingen tussen deze operationele grootheden.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Dit paper introduceert ABD, een benchmark voor het testen van grote taalmodellen op hun vermogen om zeldzame uitzonderingen af te leiden in eindige eerste-orde werelden om satisfiability te herstellen, waarbij evaluaties tonen dat hoewel de validiteit hoog is, er nog steeds significant tekort schiet in parsimonie en generalisatie.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Deze paper introduceert INDUCTION, een benchmark voor het synthetiseren van concepten in de eerste-orde logica binnen eindige structuren, die modelprestaties evalueert op basis van exacte modelcontrole en formulegrootte om inzicht te krijgen in generalisatiestrategieën.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Dit artikel introduceert een uitgebreid benchmarkkader voor multi-agent reinforcement learning in de CityLearn-omgeving, waarbij wordt vastgesteld dat decentrale training en uitvoering (DTDE) samen met tijdsafhankelijk leren superieure prestaties leveren op diverse duurzaamheids- en robuustheidskpi's voor stedelijke energiesystemen.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Deze paper introduceert MrBERT, een familie van moderne meertalige encodermodellen die door middel van vocabulaire-, domein- en dimensionale aanpassing, inclusief Matryoshka Representation Learning, state-of-the-art prestaties bereikt op Catalaanse en Spaanse taken en gespecialiseerde domeinen zoals biomedische en juridische toepassingen.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

← Vorige Volgende →