cs.AI Arbeiten | Gist.Science

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Der NC-Bench-Evaluierungsrahmen bewertet die konversationelle Kompetenz von Large Language Models nicht anhand von Inhalten, sondern anhand der strukturellen und formalen Aspekte natürlicher Gespräche, indem er auf dem IBM Natural Conversation Framework basierende Testsets für grundlegende Sequenzen, RAG-Integration und komplexe Anfragen nutzt.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Die Arbeit stellt mit „Single-Shot Planning" einen neuen Sicherheitsansatz für Computer-Nutzungs-Agenten vor, der durch eine strikte Trennung von Planung und Ausführung Prompt-Injection-Angriffe verhindert und gleichzeitig Branch-Steering-Angriffe adressiert, wodurch sowohl Sicherheit als auch die Leistungsfähigkeit der Modelle gewährleistet werden.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Die Studie stellt BoxMind vor, ein geschlossenes KI-Expertensystem, das durch die Umwandlung von Boxkampf-Videos in hierarchische taktische Indikatoren und die Nutzung eines graphbasierten Vorhersagemodells strategische Empfehlungen generiert, die 2024 bei den Olympischen Spielen in Paris zur historischen Medaillenausbeute der chinesischen Nationalmannschaft beitrugen.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Die Arbeit stellt MSAHG vor, einen neuartigen Hypergraph-Lernansatz, der durch scenario-spezifische Subhypergraphen und einen parametrischen Trennungsmechanismus die Mobilitätsmuster von Nutzern in unterschiedlichen Kontexten effektiv modelliert und so die Genauigkeit der Empfehlung des nächsten Points of Interest (POI) in Location-Based Social Networks signifikant verbessert.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Die Arbeit stellt MAS-Orchestra vor, ein Trainingsframework, das Multi-Agenten-Systeme durch holistische Orchestrierung als Reinforcement-Learning-Problem formuliert, und führt mit MASBENCH eine kontrollierte Benchmark ein, um die Bedingungen für den Vorteil von Multi-Agenten-Systemen gegenüber Einzelagenten zu analysieren und deren Effizienz sowie Leistung signifikant zu steigern.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Die Studie stellt das Determinismus-Faithfulness Assurance Harness (DFAH) vor, einen Rahmen zur unabhängigen Messung von Nachvollziehbarkeit und Genauigkeit bei Tool-nutzenden LLM-Agenten im Finanzsektor, der zeigt, dass Determinismus und Genauigkeit nicht korrelieren und daher beide separat bewertet werden müssen, um regulatorische Audit-Anforderungen zu erfüllen.

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Diese Arbeit stellt einen neuartigen Ansatz für datenratenbewusste, kontinuierliche CNN-Architekturen auf FPGAs vor, der durch geschicktes Interleaving von Signalen und Teilen von Hardwareeinheiten eine nahezu 100-prozentige Hardwareauslastung erreicht und so komplexe Modelle wie MobileNet mit hoher Durchsatzrate auf einem einzigen Chip implementierbar macht.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Das Paper stellt MeanCache vor, ein training-freies Caching-Framework für Flow Matching, das durch die Nutzung von durchschnittlichen Geschwindigkeiten anstelle von momentanen Geschwindigkeiten sowie einer Trajektorien-Stabilitäts-Strategie die Inferenzgeschwindigkeit bei gleichzeitiger Aufrechterhaltung der Generierungsqualität signifikant steigert.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Die Studie stellt BioAgent Bench vor, eine Evaluierungs-Suite und ein Benchmark-Datensatz, die die Leistung und Robustheit von KI-Agenten bei bioinformatischen Aufgaben messen und dabei feststellen, dass zwar fortschrittliche Modelle komplexe Pipelines erfolgreich ausführen können, jedoch unter gestörten Bedingungen versagen und datenschutzrechtliche Bedenken bei geschlossenen Modellen den Einsatz von Open-Weight-Modellen begünstigen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

Das Paper stellt RedSage vor, ein lokal einsetzbares, quelloffenes Cybersecurity-LLM, das durch domänenspezifisches Vor- und Nachtraining sowie einen agentenbasierten Augmentierungsprozess entwickelt wurde und auf dem neu eingeführten RedSage-Bench sowie etablierten Benchmarks signifikante Verbesserungen gegenüber Baseline-Modellen erzielt.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Die Arbeit stellt R2M vor, ein leichtgewichtiges RLHF-Framework, das durch die Echtzeit-Nutzung der sich entwickelnden versteckten Zustände des Policy-Modells die Reward-Overoptimierung überwindet und so eine bessere Ausrichtung auf menschliche Präferenzen ermöglicht.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Diese Arbeit schlägt eine neue Methode zur Vorhersage von Bitcoin-Preisen vor, die auf der kombinatorischen Fusionsanalyse (CFA) basiert und durch die Kombination diverser Modelle sowie die Nutzung von Rang- und Punktwerten eine signifikant höhere Genauigkeit mit einem MAPE von 0,19 % erreicht als einzelne Modelle oder andere Ansätze.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Diese Studie zeigt, dass die Kombination von LLM-basierten Nachrichten-Sentiment-Analysen (insbesondere mit DeBERTa und einem Ensemble-Modell) die Vorhersagegenauigkeit von Aktienkursbewegungen signifikant verbessert und verschiedene Klassifikations- sowie Regressionsmodelle unterstützt.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

Diese Arbeit stellt „Adam-Aware In-Run Data Shapley" vor, eine Methode, die durch eine geschlossene Näherung und eine neuartige Linearisierung die genaue Datenattribution für den Adam-Optimierer ermöglicht und dabei die hohe Rechenleistung moderner Trainingspipelines beibehält.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Die Studie zeigt, dass die Struktur der Schwartz-Höherwert-Kategorien als induktive Verzerrung nützlich ist, jedoch die Kalibrierung und Ensemble-Methoden im Vergleich zu starren hierarchischen Gating-Mechanismen oder eigenständigen kompakten LLMs die entscheidenden Verbesserungen bei der Erkennung menschlicher Werte auf Satzebene liefern.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Die Arbeit stellt T2T (Thickening-to-Thinning) vor, ein dynamisches Belohnungsframework für das Reinforcement Learning von Large Language Models, das menschliche Lernprozesse nachahmt, indem es bei fehlerhaften Versuchen längere Suchpfade fördert und bei korrekten Lösungen Redundanzen bestraft, um so die mathematische Reasoning-Leistung signifikant zu steigern.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Die Studie stellt FSTab vor, einen Black-Box-Ansatz zur Vorhersage und Quantifizierung wiederkehrender Sicherheitslücken in von LLMs generierter Software, der auf Basis beobachtbarer Frontend-Features und des verwendeten Modells bis zu 94 % Angriffserfolge über verschiedene Anwendungsbereiche hinweg erzielt.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Diese Arbeit stellt ein skalierbares semantisches Suchsystem für über 9 Millionen mathematische Theoreme vor, das durch die Verwendung natürlicher Sprachbeschreibungen und optimierter Embeddings die präzise Wiederauffindung spezifischer Sätze in großen Forschungsdatenbeständen im Vergleich zu herkömmlichen Methoden deutlich verbessert.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

← Zurück Weiter →