cs.AI Arbeiten | Gist.Science

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Die Studie zeigt, dass die Struktur der Schwartz-Höherwert-Kategorien als induktive Verzerrung nützlich ist, jedoch die Kalibrierung und Ensemble-Methoden im Vergleich zu starren hierarchischen Gating-Mechanismen oder eigenständigen kompakten LLMs die entscheidenden Verbesserungen bei der Erkennung menschlicher Werte auf Satzebene liefern.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Die Arbeit stellt T2T (Thickening-to-Thinning) vor, ein dynamisches Belohnungsframework für das Reinforcement Learning von Large Language Models, das menschliche Lernprozesse nachahmt, indem es bei fehlerhaften Versuchen längere Suchpfade fördert und bei korrekten Lösungen Redundanzen bestraft, um so die mathematische Reasoning-Leistung signifikant zu steigern.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Die Studie stellt FSTab vor, einen Black-Box-Ansatz zur Vorhersage und Quantifizierung wiederkehrender Sicherheitslücken in von LLMs generierter Software, der auf Basis beobachtbarer Frontend-Features und des verwendeten Modells bis zu 94 % Angriffserfolge über verschiedene Anwendungsbereiche hinweg erzielt.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Diese Arbeit stellt ein skalierbares semantisches Suchsystem für über 9 Millionen mathematische Theoreme vor, das durch die Verwendung natürlicher Sprachbeschreibungen und optimierter Embeddings die präzise Wiederauffindung spezifischer Sätze in großen Forschungsdatenbeständen im Vergleich zu herkömmlichen Methoden deutlich verbessert.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Das Paper stellt LMMRec vor, ein modellunabhängiges Framework, das Large Language Models nutzt, um feingranulare motivationsbasierte Empfehlungen durch die tiefgreifende Analyse von Text und Interaktionsdaten zu generieren und dabei signifikante Leistungsverbesserungen erzielt.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Diese Arbeit stellt einen stochastischen Ansatz zur bedingten Diffusionsgenerierung unter harten Randbedingungen vor, der auf der Doob-h-Transformation basiert und durch neue Off-Policy-Lernalgorithmen sowie nicht-asymptotische Garantien eine garantierte Erfüllung der Constraints ohne Modifikation des vortrainierten Score-Netzwerks ermöglicht.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Das Paper stellt NAAMSE vor, ein evolutionäres Framework, das die Sicherheit von KI-Agenten durch einen feedbackgesteuerten Optimierungsprozess mit genetischer Prompt-Mutation und hierarchischer Korpus-Exploration bewertet, um adaptive Bedrohungen realistischer zu simulieren als statische Methoden.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Die Arbeit stellt ein einheitliches, diffusionsbasiertes Pretraining-Framework für Gehirngraphen vor, das durch struktur- und topologiebewusste Augmentierungs- sowie Rekonstruktionsstrategien die Grenzen bestehender kontrastiver und Maskierungsverfahren überwindet und so robustere, übertragbare Repräsentationen für neuroimaging-Daten liefert.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Die Arbeit stellt CoCoA vor, einen trainingfreien Decodierungsalgorithmus, der durch die Analyse von Inkonsistenzen zwischen den inneren Schichten von Large Language Models Halluzinationen reduziert und so die faktische Korrektheit ohne Nachtraining verbessert.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Die Arbeit stellt SToRM vor, ein neuartiges Framework zur überwachierten Token-Reduktion in multimodalen Large Language Models, das die Rechenkosten für end-zu-end autonomes Fahren um bis zu das 30-fache senkt, ohne dabei die Leistung im Vergleich zur Verarbeitung aller visuellen Token zu beeinträchtigen.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Die Arbeit stellt AGPS vor, ein Framework, das die skalierbare robotische Reinforcement-Learning-Training durch den Ersatz menschlicher Betreuer durch einen multimodalen Agenten beschleunigt, der als semantisches Weltmodell fungiert und die Exploration durch präzise Korrekturen und räumliche Einschränkungen effizient steuert.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Die Arbeit M2RL analysiert und vergleicht die Trainingsparadigmen des gemischten Multi-Task-Reinforcement-Learning mit Verifizierbaren Belohnungen (RLVR) und des separaten Trainings mit nachfolgendem Modell-Merging für Large Language Models, wobei sie feststellt, dass domainspezifisches RLVR sich gegenseitig kaum beeinträchtigt und in rechenintensiven Bereichen synergistische Effekte zeigt.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Die Studie „SkillsBench" stellt ein Benchmark-System vor, das zeigt, dass kuratierte Agenten-Skills die Erfolgsrate von LLM-Agenten in 86 Aufgaben über 11 Domänen im Durchschnitt um 16,2 Prozentpunkte steigern, wobei selbstgenerierte Skills jedoch keinen Vorteil bieten und der Nutzen stark domänenspezifisch variiert.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Die Arbeit schlägt eine geometrische Taxonomie von Halluzinationen in LLMs vor, die Unwahrhaftigkeit, Konfabulation und faktische Fehler unterscheidet, und stellt darauf aufbauend neue Detektionsmethoden vor, die insbesondere bei Konfabulationen hohe Genauigkeit erreichen, während sie gleichzeitig methodische Grenzen bei der Erkennung faktischer Fehler aufzeigen.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon ist ein neuer Optimierer, der die geometrischen Vorteile orthogonaler Momentum-Methoden mit einer globalen RMS-Kalibrierung und einem energiebasierten Trust-Region-Clipping kombiniert, um die Stabilität zu erhöhen und eine schnellere Konvergenz ohne Warmup-Stufen zu ermöglichen.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Die Studie zeigt, dass ein leichtgewichtiger, automatisierter KI-Pipeline, der fortschrittliche Sprachmodelle mit zitationsbasierten Verifikationsmethoden kombiniert, in der Lage ist, komplexe mathematische Forschungsprobleme zu lösen und deren Lösungen erfolgreich zu verifizieren.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Die Arbeit stellt die Mean Velocity Policy (MVP) vor, eine neue generative Politik, die durch die Modellierung eines mittleren Geschwindigkeitsfeldes unter einer instantanen Geschwindigkeitsbeschränkung (IVC) sowohl eine hochexpressive als auch extrem schnelle Ein-Schritt-Aktionsgenerierung in der robotischen Manipulation ermöglicht.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Das Papier stellt Pawsterior vor, ein variationsbasiertes Flow-Matching-Framework für die simulationsbasierte Inferenz, das durch die Einführung einer endpunktabhängigen affinen geometrischen Einschränkung sowohl strukturierte Domänen als auch diskrete latente Strukturen effektiv handhabt.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Die vorgestellte Arbeit führt XTF ein, ein erklärbares Framework zur Filterung von Token-level-Rauschen in Fine-Tuning-Datensätzen durch die Zerlegung von Token-Beiträgen in drei Attribute, was die Leistung von Large Language Models in verschiedenen Downstream-Aufgaben signifikant verbessert.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Das Paper stellt LongAudio-RAG vor, ein hybrides Framework, das durch die Umwandlung von stundenlangen Audioaufnahmen in strukturierte, zeitgestempelte Ereignisdaten und deren gezielte Abfrage mittels SQL die präzise Beantwortung natürlicher Sprachfragen mit minimierten Halluzinationen ermöglicht.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

← Zurück Weiter →