cs.AI Arbeiten | Gist.Science

Aligning Compound AI Systems via System-level DPO

Die Arbeit stellt SysDPO vor, ein Framework, das die direkte Präferenzoptimierung (DPO) auf komplexe, aus mehreren Komponenten bestehende KI-Systeme erweitert, um diese durch eine graphbasierte Modellierung und systemweite Optimierung effektiv an menschliche Präferenzen anzupassen, ohne auf differenzierbare Interaktionen angewiesen zu sein.

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi Koyejo2026-03-09🤖 cs.AI

Adversarial Robustness of Partitioned Quantum Classifiers

Diese Arbeit untersucht die adversarische Robustheit partitionierter Quantenklassifizierer, indem sie einen Zusammenhang zwischen Störungen durch Wire-Cutting oder Teleportation und der Implementierung adversarischer Gatter in Zwischenschichten herstellt und dieses Problem sowohl theoretisch als auch experimentell analysiert.

Pouya Kananian, Hans-Arno Jacobsen2026-03-09⚛️ quant-ph

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

Diese Arbeit bietet einen umfassenden Überblick über die Musikgenerierung aus ein-, kreuz- und multimodaler Perspektive, indem sie Repräsentationen, Datenalignment, aktuelle Datensätze und Evaluierungsmethoden analysiert sowie Herausforderungen und zukünftige Forschungsrichtungen beleuchtet.

Shuyu Li, Shulei Ji, Zihao Wang + 3 more2026-03-09🤖 cs.AI

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

Diese kontrollierte Studie zeigt, dass die wahre Vorhersagefähigkeit von vortrainierten Large Language Models für Zeitreihen durch die Überanpassung von Tokenizer-Detokenizer-Paaren an kleine Datensätze oft verschleiert wird und ihre Leistung selbst mit optimierten, großskalig vortrainierten Komponenten die von speziell auf Zeitreihendaten trainierten Modellen nicht konsistent übertrifft.

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

In diesem Positionspapier argumentieren die Autoren, dass die Anthropomorphisierung von Zwischenschritten als „Denkspuren" gefährlich ist, da sie das Wesen von Sprachmodellen missversteht, ihre effektive Nutzung behindert und zu fragwürdiger Forschung führt, und fordern die Community auf, diese Metapher zu vermeiden.

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Diese Studie untersucht aus einer Überlebendenperspektive die Versagen der aktuellen KI-Governance-Maßnahmen, die durch einen „bösartigen technischen Ökosystem" aus Open-Source-Modellen und leicht zugänglicher Software ermöglicht wird, das die Erstellung nicht-einvernehmlicher, KI-generierter intimer Bilder von Erwachsenen erleichtert.

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

Dieser Übersichtsartikel bietet einen umfassenden Einblick in das federierte Lernen als dezentralen Ansatz für privatsphäreschonendes kollaboratives maschinelles Lernen, indem er die Architektur, zentrale Herausforderungen wie Datenheterogenität und Kommunikationskosten, sowie aktuelle Trends und Anwendungsfälle analysiert und zukünftige Forschungsrichtungen aufzeigt.

Ratun Rahman2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Die Arbeit stellt HCT-QA vor, ein umfassendes Benchmark-Dataset mit tausenden realen und synthetischen menschenzentrierten Tabellen sowie zugehörigen Frage-Antwort-Paaren, um die Leistung von Sprach- und Vision-Sprachmodellen beim Beantworten natürlicher Fragen aus komplexen Tabellendokumenten zu evaluieren und durch Feinabstimmung signifikant zu verbessern.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

Die Arbeit stellt FourierSpecNet vor, ein hybrides Deep-Learning-Framework, das die Fourier-Spektralmethode nutzt, um den Kollisionsoperator der Boltzmann-Gleichung effizient zu approximieren und dabei rechenintensive traditionelle Solver durch eine resolutionsinvariante, hochgenaue und kostengünstige Alternative für elastische und inelastische Kollisionen ersetzt.

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

RM-R1: Reward Modeling as Reasoning

Die Arbeit stellt Reasoning Reward Models (ReasRMs) vor, insbesondere die RM-R1-Familie, die durch die Umformulierung des Reward-Modeling als Reasoning-Aufgabe mit einem Chain-of-Rubrics-Mechanismus und einem zweistufigen Trainingsprozess die Interpretierbarkeit und Leistung von Belohnungsmodellen signifikant steigern.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Diese Arbeit stellt einen umfassenden Überblick über 178 Benchmarks für Code-LLMs und Agenten aus der Perspektive des Softwareentwicklungslebenszyklus (SDLC) bereit, deckt dabei eine signifikante Ungleichgewichtigkeit auf, bei der die Implementierungsphase stark überrepräsentiert ist, während Anforderungsanalyse und Design vernachlässigt werden, und identifiziert zudem kritische Lücken bei Anti-Kontaminationsstrategien sowie zukünftige Forschungsrichtungen.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Diese Arbeit stellt EVA vor, ein neuartiges asynchrones Framework, das durch die Übertragung von Sprachmodellierungstechniken auf die Ereignisverarbeitung überlegene Merkmalsrepräsentationen für Erkennungs- und Detektionsaufgaben in der ereignisbasierten Computer Vision ermöglicht.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Die Studie zeigt, dass durch feingranulare, bedingte Aktivierungssteuerung (K-CAST) die Verzerrung von Sprachmodellen zugunsten inhaltlicher Plausibilität gegenüber formaler logischer Gültigkeit effektiv reduziert und die Genauigkeit beim logischen Schlussfolgern um bis zu 15 % verbessert werden kann.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Das Paper stellt AdAEM vor, einen adaptiven und automatisierten Algorithmus, der durch die dynamische Generierung kontroverser Testfragen die Wertedifferenzen und kulturellen Ausrichtungen von Large Language Models präziser und informativer misst als statische Benchmarks.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Die Studie stellt ESGenius vor, den ersten umfassenden Benchmark zur Evaluierung von Large Language Models im Bereich ESG und Nachhaltigkeit, der aus einem von Experten validierten Fragenkatalog und einer Kuratierung autoritativer Quellen besteht und zeigt, dass Retrieval-Augmented Generation (RAG) die Leistung dieser Modelle in diesem spezialisierten Fachgebiet signifikant verbessert.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Die Arbeit stellt KramaBench vor, einen Benchmark mit 104 manuell erstellten Herausforderungen, der zeigt, dass aktuelle KI-Systeme zwar einzelne Datenaufgaben bewältigen können, aber beim Entwurf und der Ausführung funktionsfähiger End-to-End-Pipelines zur Gewinnung von Erkenntnissen aus komplexen Data Lakes erhebliche Schwierigkeiten haben.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Das Paper stellt VisioMath vor, ein Benchmark mit 1.800 mathematischen Aufgaben, bei denen Modelle zwischen visuell ähnlichen Diagrammen unterscheiden müssen, und zeigt, dass aktuelle Large Multimodal Models aufgrund von Fehlern bei der Bild-Text-Ausrichtung scheitern, was durch gezielte Alignierungsstrategien verbessert werden kann.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Diese Studie stellt ein neues, multidimensionales Rahmenwerk zur Bewertung moralischer Kompetenz in großen Sprachmodellen vor und zeigt, dass diese zwar in standardisierten Szenarien menschliche Nicht-Experten übertreffen, jedoch in komplexen Situationen, in denen moralisch relevante Informationen aus irrelevanten Details herausgefiltert werden müssen, signifikant schlechter abschneiden als Menschen, was darauf hindeutet, dass bestehende Evaluierungen die Fähigkeiten der KI überschätzen.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

Das Paper stellt ContextBench vor, einen Benchmark zur Bewertung von Methoden, die gezielt latente Merkmale in Sprachmodellen aktivieren, und zeigt, dass eine Kombination aus evolutionärer Prompt-Optimierung, LLM-Unterstützung und Diffusionsmodellen den besten Kompromiss zwischen Wirksamkeit und sprachlicher Flüssigkeit erzielt.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

← Zurück Weiter →