cs.AI papers | Gist.Science

Real-Time Aligned Reward Model beyond Semantics

Dit paper introduceert R2M, een nieuw lichtgewicht RLHF-framework dat reward-overoptimalisatie aanpakt door real-time gebruik te maken van de evoluerende verborgen toestanden van het beleidsmodel in plaats van uitsluitend te vertrouwen op oppervlakkige semantische informatie.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Dit paper presenteert een nieuwe Bitcoin-prijsvoorspellingsmethode die Combinatorial Fusion Analysis (CFA) toepast om diverse machine learning-modellen te combineren, wat resulteert in een aanzienlijk betere prestatie met een MAPE van 0,19% vergeleken met individuele modellen en andere bestaande voorspellingsmethoden.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Deze studie toont aan dat het gebruik van LLM-gebaseerde nieuwsgevoelensanalyse, met name met het DeBERTa-model of een ensemble van drie modellen, de nauwkeurigheid van de voorspelling van aandelenkoersbewegingen significant kan verbeteren.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

Deze paper introduceert Adam-Aware In-Run Data Shapley, een nieuwe methode die de beperkingen van bestaande SGD-gebaseerde attributietechnieken voorbijgaat door een gesloten-vorm benadering en een Lineaire Ghost-benadering te gebruiken, waardoor nauwkeurige data-attributie mogelijk wordt tijdens het trainen met de Adam-optimizer zonder de doorvoersnelheid significant te verlagen.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Deze studie concludeert dat de Schwartz-hoogwaardige waardenstructuur bij het detecteren van menselijke waarden op zinneniveau vooral nuttig is als inductieve bias en dat de grootste prestatiewinsten worden behaald via kalibratie en ensemble-methoden, terwijl harde hiërarchische poortmodellen en compacte LLM's als standalone-systemen minder effectief blijken.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Dit paper introduceert T2T, een dynamisch beloningssysteem voor Large Language Models dat, geïnspireerd op menselijk leren, de zoekruimte uitbreidt bij fouten en de redenering efficiënter maakt na succes, wat leidt tot aanzienlijk betere prestaties op wiskundige benchmarks.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Deze studie introduceert FSTab, een methode voor het voorspellen van herhalende kwetsbaarheden in door LLM's gegenereerde software op basis van zichtbare functies, en toont aan dat deze aanval ook succesvol is over verschillende domeinen heen, zelfs zonder toegang tot de broncode.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

De auteurs introduceren een schaalbaar semantisch zoeksysteem voor wiskundige stellingen dat op een corpus van 9,2 miljoen stellingen is getraind en door middel van geoptimaliseerde representaties en zoekstrategieën een aanzienlijke verbetering biedt ten opzichte van bestaande methoden voor het vinden van specifieke wiskundige resultaten.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Het artikel introduceert LMMRec, een model-onafhankelijk raamwerk dat grote taalmodellen en chain-of-thought prompting gebruikt om gedetailleerde motivaties uit tekst te halen en deze te aligneren met interactiegegevens via contrastief leren, wat leidt tot significante verbeteringen in multimodale aanbevelingssystemen.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Deze paper introduceert een principieel raamwerk voor conditionele diffusiemodellen onder harde constraints, gebaseerd op Doob's h-transformatie en martingaaltheorie, dat twee nieuwe off-policy leeralgoritmes biedt om de driftcorrectie te schatten zonder het vooraf getrainde score-netwerk aan te passen, terwijl niet-asymptotische garanties worden geleverd voor de kwaliteit van de gegenereerde steekproeven.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Het paper introduceert NAAMSE, een evolutionair framework dat de beveiligingsevaluatie van AI-agenten automatiseert door feedback-gedreven promptmutatie en hiërarchische verkenning te combineren om adaptieve bedreigingen effectiever te identificeren dan traditionele statische methoden.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Dit artikel introduceert een unificerend pretrainingsframework op basis van diffusie voor hersengrafen, dat semantisch betekenisvolle connectiviteitspatronen behoudt en globale structurele informatie vastlegt om robuustere representaties te leren dan bestaande methoden.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Dit paper introduceert CoCoA, een trainingsvrije decoderingsalgoritme dat hallucinaties in grote taalmodellen vermindert door de inconsistentie van representaties tussen de interne lagen te detecteren en te straffen, waardoor de feitelijke juistheid van de output zonder hertraining wordt verbeterd.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Dit paper introduceert SToRM, een supervisie-gedreven raamwerk voor tokenreductie in multimodale LLM's dat de rekenefficiëntie van end-to-end autonoom rijden met tot 30x verbetert terwijl de prestaties van het gebruik van alle tokens behouden blijven.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Dit paper introduceert AGPS, een framework dat de sample-efficiëntie van robotreinforcement learning verbetert door menselijke supervisie te vervangen door een multimodaal agent die als semantisch wereldmodel fungeert voor schaalbare, arbeidsvrije training.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Dit artikel presenteert een geometrische taxonomie van hallucinaties in grote taalmodellen die drie fouttypen onderscheidt en twee detectiemethoden introduceert, waarbij wordt aangetoond dat bestaande benchmarks voor feitelijke fouten vaak worden beïnvloed door stijlconfounds in plaats van echte semantische afwijkingen.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon verbetert Muon-gebaseerde optimalisatoren door de orthogonalisatie te behouden en tegelijkertijd de stabiliteit te waarborgen via globale RMS-calibratie en energiegebaseerde trust-region-clipping, wat resulteert in snellere convergentie en robuustheid zonder warmup-fasen.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

← Vorige Volgende →