cs.AI Arbeiten | Gist.Science

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Das Paper stellt LMMRec vor, ein modellunabhängiges Framework, das Large Language Models nutzt, um feingranulare motivationsbasierte Empfehlungen durch die tiefgreifende Analyse von Text und Interaktionsdaten zu generieren und dabei signifikante Leistungsverbesserungen erzielt.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Diese Arbeit stellt einen stochastischen Ansatz zur bedingten Diffusionsgenerierung unter harten Randbedingungen vor, der auf der Doob-h-Transformation basiert und durch neue Off-Policy-Lernalgorithmen sowie nicht-asymptotische Garantien eine garantierte Erfüllung der Constraints ohne Modifikation des vortrainierten Score-Netzwerks ermöglicht.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Das Paper stellt NAAMSE vor, ein evolutionäres Framework, das die Sicherheit von KI-Agenten durch einen feedbackgesteuerten Optimierungsprozess mit genetischer Prompt-Mutation und hierarchischer Korpus-Exploration bewertet, um adaptive Bedrohungen realistischer zu simulieren als statische Methoden.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Die Arbeit stellt ein einheitliches, diffusionsbasiertes Pretraining-Framework für Gehirngraphen vor, das durch struktur- und topologiebewusste Augmentierungs- sowie Rekonstruktionsstrategien die Grenzen bestehender kontrastiver und Maskierungsverfahren überwindet und so robustere, übertragbare Repräsentationen für neuroimaging-Daten liefert.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Die Arbeit stellt CoCoA vor, einen trainingfreien Decodierungsalgorithmus, der durch die Analyse von Inkonsistenzen zwischen den inneren Schichten von Large Language Models Halluzinationen reduziert und so die faktische Korrektheit ohne Nachtraining verbessert.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Die Arbeit stellt SToRM vor, ein neuartiges Framework zur überwachierten Token-Reduktion in multimodalen Large Language Models, das die Rechenkosten für end-zu-end autonomes Fahren um bis zu das 30-fache senkt, ohne dabei die Leistung im Vergleich zur Verarbeitung aller visuellen Token zu beeinträchtigen.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Die Arbeit stellt AGPS vor, ein Framework, das die skalierbare robotische Reinforcement-Learning-Training durch den Ersatz menschlicher Betreuer durch einen multimodalen Agenten beschleunigt, der als semantisches Weltmodell fungiert und die Exploration durch präzise Korrekturen und räumliche Einschränkungen effizient steuert.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Die Arbeit M2RL analysiert und vergleicht die Trainingsparadigmen des gemischten Multi-Task-Reinforcement-Learning mit Verifizierbaren Belohnungen (RLVR) und des separaten Trainings mit nachfolgendem Modell-Merging für Large Language Models, wobei sie feststellt, dass domainspezifisches RLVR sich gegenseitig kaum beeinträchtigt und in rechenintensiven Bereichen synergistische Effekte zeigt.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Die Studie „SkillsBench" stellt ein Benchmark-System vor, das zeigt, dass kuratierte Agenten-Skills die Erfolgsrate von LLM-Agenten in 86 Aufgaben über 11 Domänen im Durchschnitt um 16,2 Prozentpunkte steigern, wobei selbstgenerierte Skills jedoch keinen Vorteil bieten und der Nutzen stark domänenspezifisch variiert.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Die Arbeit schlägt eine geometrische Taxonomie von Halluzinationen in LLMs vor, die Unwahrhaftigkeit, Konfabulation und faktische Fehler unterscheidet, und stellt darauf aufbauend neue Detektionsmethoden vor, die insbesondere bei Konfabulationen hohe Genauigkeit erreichen, während sie gleichzeitig methodische Grenzen bei der Erkennung faktischer Fehler aufzeigen.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon ist ein neuer Optimierer, der die geometrischen Vorteile orthogonaler Momentum-Methoden mit einer globalen RMS-Kalibrierung und einem energiebasierten Trust-Region-Clipping kombiniert, um die Stabilität zu erhöhen und eine schnellere Konvergenz ohne Warmup-Stufen zu ermöglichen.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Die Studie zeigt, dass ein leichtgewichtiger, automatisierter KI-Pipeline, der fortschrittliche Sprachmodelle mit zitationsbasierten Verifikationsmethoden kombiniert, in der Lage ist, komplexe mathematische Forschungsprobleme zu lösen und deren Lösungen erfolgreich zu verifizieren.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Die Arbeit stellt die Mean Velocity Policy (MVP) vor, eine neue generative Politik, die durch die Modellierung eines mittleren Geschwindigkeitsfeldes unter einer instantanen Geschwindigkeitsbeschränkung (IVC) sowohl eine hochexpressive als auch extrem schnelle Ein-Schritt-Aktionsgenerierung in der robotischen Manipulation ermöglicht.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Das Papier stellt Pawsterior vor, ein variationsbasiertes Flow-Matching-Framework für die simulationsbasierte Inferenz, das durch die Einführung einer endpunktabhängigen affinen geometrischen Einschränkung sowohl strukturierte Domänen als auch diskrete latente Strukturen effektiv handhabt.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Die vorgestellte Arbeit führt XTF ein, ein erklärbares Framework zur Filterung von Token-level-Rauschen in Fine-Tuning-Datensätzen durch die Zerlegung von Token-Beiträgen in drei Attribute, was die Leistung von Large Language Models in verschiedenen Downstream-Aufgaben signifikant verbessert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Das Paper stellt LongAudio-RAG vor, ein hybrides Framework, das durch die Umwandlung von stundenlangen Audioaufnahmen in strukturierte, zeitgestempelte Ereignisdaten und deren gezielte Abfrage mittels SQL die präzise Beantwortung natürlicher Sprachfragen mit minimierten Halluzinationen ermöglicht.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Das Paper stellt CogitoRAG vor, ein RAG-Framework, das menschliche kognitive Gedächtnisprozesse nachahmt, indem es semantische Gist-Extraktion, einen multidimensionalen Wissensgraphen und einen Diffusionsmechanismus nutzt, um bei komplexen Fragen die semantische Integrität zu bewahren und die Leistung gegenüber bestehenden Methoden signifikant zu steigern.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Die Autoren stellen mit CondMedQA den ersten Benchmark für kontextabhängige biomedizinische Fragen vor und entwickeln das Condition-Gated Reasoning (CGR)-Framework, das durch bedingungsbasierte Pfadsteuerung in Wissensgraphen zuverlässigere medizinische Schlussfolgerungen ermöglicht.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Die Arbeit stellt neue Werkzeuge für Split-Conformal-Vorhersagen vor, die über die reine Abdeckung hinausgehen, indem sie durch eine Small-Sample-Beta-Korrektur und einen Kalibrierungs- und Auditierungsansatz finite-garantierte operative Kennzahlen wie Entscheidungshäufigkeit und Fehlerexposition für den praktischen Einsatz bereitstellen.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Die Arbeit stellt ABD vor, einen Benchmark zur Bewertung der Fähigkeit von Sprachmodellen, in endlichen ersten Ordnungs-Welten durch das Ableiten sparsamer Ausnahmeregeln die Satisfiabilität von Theorien wiederherzustellen, und zeigt dabei trotz hoher Validität signifikante Defizite in der Sparsamkeit und Generalisierung auf.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

← Zurück Weiter →