cs.AI Arbeiten | Gist.Science

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Die Arbeit stellt MAS-Orchestra vor, ein Trainingsframework, das Multi-Agenten-Systeme durch holistische Orchestrierung als Reinforcement-Learning-Problem formuliert, und führt mit MASBENCH eine kontrollierte Benchmark ein, um die Bedingungen für den Vorteil von Multi-Agenten-Systemen gegenüber Einzelagenten zu analysieren und deren Effizienz sowie Leistung signifikant zu steigern.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Die Studie stellt das Determinismus-Faithfulness Assurance Harness (DFAH) vor, einen Rahmen zur unabhängigen Messung von Nachvollziehbarkeit und Genauigkeit bei Tool-nutzenden LLM-Agenten im Finanzsektor, der zeigt, dass Determinismus und Genauigkeit nicht korrelieren und daher beide separat bewertet werden müssen, um regulatorische Audit-Anforderungen zu erfüllen.

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Diese Arbeit stellt einen neuartigen Ansatz für datenratenbewusste, kontinuierliche CNN-Architekturen auf FPGAs vor, der durch geschicktes Interleaving von Signalen und Teilen von Hardwareeinheiten eine nahezu 100-prozentige Hardwareauslastung erreicht und so komplexe Modelle wie MobileNet mit hoher Durchsatzrate auf einem einzigen Chip implementierbar macht.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Das Paper stellt MeanCache vor, ein training-freies Caching-Framework für Flow Matching, das durch die Nutzung von durchschnittlichen Geschwindigkeiten anstelle von momentanen Geschwindigkeiten sowie einer Trajektorien-Stabilitäts-Strategie die Inferenzgeschwindigkeit bei gleichzeitiger Aufrechterhaltung der Generierungsqualität signifikant steigert.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Die Studie stellt BioAgent Bench vor, eine Evaluierungs-Suite und ein Benchmark-Datensatz, die die Leistung und Robustheit von KI-Agenten bei bioinformatischen Aufgaben messen und dabei feststellen, dass zwar fortschrittliche Modelle komplexe Pipelines erfolgreich ausführen können, jedoch unter gestörten Bedingungen versagen und datenschutzrechtliche Bedenken bei geschlossenen Modellen den Einsatz von Open-Weight-Modellen begünstigen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

Das Paper stellt RedSage vor, ein lokal einsetzbares, quelloffenes Cybersecurity-LLM, das durch domänenspezifisches Vor- und Nachtraining sowie einen agentenbasierten Augmentierungsprozess entwickelt wurde und auf dem neu eingeführten RedSage-Bench sowie etablierten Benchmarks signifikante Verbesserungen gegenüber Baseline-Modellen erzielt.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Die Arbeit stellt R2M vor, ein leichtgewichtiges RLHF-Framework, das durch die Echtzeit-Nutzung der sich entwickelnden versteckten Zustände des Policy-Modells die Reward-Overoptimierung überwindet und so eine bessere Ausrichtung auf menschliche Präferenzen ermöglicht.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Diese Arbeit schlägt eine neue Methode zur Vorhersage von Bitcoin-Preisen vor, die auf der kombinatorischen Fusionsanalyse (CFA) basiert und durch die Kombination diverser Modelle sowie die Nutzung von Rang- und Punktwerten eine signifikant höhere Genauigkeit mit einem MAPE von 0,19 % erreicht als einzelne Modelle oder andere Ansätze.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Diese Studie zeigt, dass die Kombination von LLM-basierten Nachrichten-Sentiment-Analysen (insbesondere mit DeBERTa und einem Ensemble-Modell) die Vorhersagegenauigkeit von Aktienkursbewegungen signifikant verbessert und verschiedene Klassifikations- sowie Regressionsmodelle unterstützt.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

Diese Arbeit stellt „Adam-Aware In-Run Data Shapley" vor, eine Methode, die durch eine geschlossene Näherung und eine neuartige Linearisierung die genaue Datenattribution für den Adam-Optimierer ermöglicht und dabei die hohe Rechenleistung moderner Trainingspipelines beibehält.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Die Studie zeigt, dass die Struktur der Schwartz-Höherwert-Kategorien als induktive Verzerrung nützlich ist, jedoch die Kalibrierung und Ensemble-Methoden im Vergleich zu starren hierarchischen Gating-Mechanismen oder eigenständigen kompakten LLMs die entscheidenden Verbesserungen bei der Erkennung menschlicher Werte auf Satzebene liefern.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Die Arbeit stellt T2T (Thickening-to-Thinning) vor, ein dynamisches Belohnungsframework für das Reinforcement Learning von Large Language Models, das menschliche Lernprozesse nachahmt, indem es bei fehlerhaften Versuchen längere Suchpfade fördert und bei korrekten Lösungen Redundanzen bestraft, um so die mathematische Reasoning-Leistung signifikant zu steigern.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Die Studie stellt FSTab vor, einen Black-Box-Ansatz zur Vorhersage und Quantifizierung wiederkehrender Sicherheitslücken in von LLMs generierter Software, der auf Basis beobachtbarer Frontend-Features und des verwendeten Modells bis zu 94 % Angriffserfolge über verschiedene Anwendungsbereiche hinweg erzielt.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Diese Arbeit stellt ein skalierbares semantisches Suchsystem für über 9 Millionen mathematische Theoreme vor, das durch die Verwendung natürlicher Sprachbeschreibungen und optimierter Embeddings die präzise Wiederauffindung spezifischer Sätze in großen Forschungsdatenbeständen im Vergleich zu herkömmlichen Methoden deutlich verbessert.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Das Paper stellt LMMRec vor, ein modellunabhängiges Framework, das Large Language Models nutzt, um feingranulare motivationsbasierte Empfehlungen durch die tiefgreifende Analyse von Text und Interaktionsdaten zu generieren und dabei signifikante Leistungsverbesserungen erzielt.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Diese Arbeit stellt einen stochastischen Ansatz zur bedingten Diffusionsgenerierung unter harten Randbedingungen vor, der auf der Doob-h-Transformation basiert und durch neue Off-Policy-Lernalgorithmen sowie nicht-asymptotische Garantien eine garantierte Erfüllung der Constraints ohne Modifikation des vortrainierten Score-Netzwerks ermöglicht.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Das Paper stellt NAAMSE vor, ein evolutionäres Framework, das die Sicherheit von KI-Agenten durch einen feedbackgesteuerten Optimierungsprozess mit genetischer Prompt-Mutation und hierarchischer Korpus-Exploration bewertet, um adaptive Bedrohungen realistischer zu simulieren als statische Methoden.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Die Arbeit stellt ein einheitliches, diffusionsbasiertes Pretraining-Framework für Gehirngraphen vor, das durch struktur- und topologiebewusste Augmentierungs- sowie Rekonstruktionsstrategien die Grenzen bestehender kontrastiver und Maskierungsverfahren überwindet und so robustere, übertragbare Repräsentationen für neuroimaging-Daten liefert.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Die Arbeit stellt CoCoA vor, einen trainingfreien Decodierungsalgorithmus, der durch die Analyse von Inkonsistenzen zwischen den inneren Schichten von Large Language Models Halluzinationen reduziert und so die faktische Korrektheit ohne Nachtraining verbessert.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

← Zurück Weiter →