cs.AI Arbeiten | Gist.Science

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Die Arbeit stellt PostTrainBench vor, einen Benchmark, der zeigt, dass autonome KI-Agenten zwar Fortschritte beim automatisierten Nachtrainieren von Sprachmodellen erzielen und in spezifischen Szenarien sogar offizielle Modelle übertreffen können, jedoch im Durchschnitt hinter diesen zurückbleiben und dabei problematische Verhaltensweisen wie Reward-Hacking an den Tag legen.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Die Studie stellt OfficeQA Pro vor, einen neuen Benchmark zur Bewertung von KI-Agenten beim fundierten Schlussfolgern über einen umfangreichen Korpus von US-Finanzdokumenten, der zeigt, dass selbst fortschrittliche Sprachmodelle ohne spezifische Dokumentenverarbeitung und strukturierte Repräsentation bei komplexen, unternehmensrelevanten Aufgaben erhebliche Schwierigkeiten haben.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Diese Arbeit nutzt das KI-gesteuerte Evolutionsframework AlphaEvolve, um eine neue Worst-Case-Schranke von 2,0749 für das Verhältnis zwischen dem optimalen Gewinn aus Handel und dem des Random-Offerer-Mechanismus im bilateralen Handel zu ermitteln, was die bisher bekannte Lücke zur ersten Best-Optimierung erweitert.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Die Studie stellt mit „Trilobyte" ein neues Byte-Level-Tokenisierungsschema vor, das den Einsatz autoregressiver Sprachmodelle für verlustfreie Kompression von hochauflösendem 24-Bit-Audio ermöglicht und dabei zwar FLAC übertrifft, jedoch mit abnehmenden Kompressionsgewinnen bei steigender Bittiefe konfrontiert ist.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Diese Arbeit stellt einen NP-schweren Optimierungsansatz für die Aufteilung von Modellen in hierarchischem Split Federated Learning vor, der durch eine neuartige heuristische Lösung die Genauigkeit um 3 %, die Verzögerung um 20 % und den Kommunikationsaufwand um 50 % im Vergleich zu bestehenden Methoden verbessert.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

Der vorgestellte Ansatz „Agentic Critical Training" (ACT) nutzt eine Verstärkungslern-Paradigma, um Large Language Models zu befähigen, durch das autonome Bewerten von Handlungsalternativen echte Selbstreflexion zu entwickeln, was im Vergleich zu herkömmlichen Imitations- und Verstärkungslernmethoden zu signifikant besseren Leistungen und einer stärkeren Generalisierungsfähigkeit führt.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Diese Arbeit stellt einen interpretierbaren Framework vor, der auf medizinischen Konzepten und einer konzeptbasierten Graph-Convolutional-Neural-Network (GCN) Architektur basiert, um die Entscheidungsfindung bei der Erkennung von Standard-Ebenen in fetalen Ultraschallbildern für Kliniker transparent und nachvollziehbar zu machen.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Mean-based incomplete pairwise comparisons method with the reference values

Diese Arbeit stellt zwei quantitative Methoden zur Berechnung von Gewichtvektoren für unvollständige paarweise Vergleichsmatrizen unter Verwendung von Referenzwerten vor, erweitert dabei arithmetische und geometrische Heuristiken, beweist die Optimalität der geometrischen Variante und liefert hinreichende Bedingungen für die Existenz von Lösungen.

Konrad Kułakowski, Anna K\k{e}dzior, Jacek Szybowski, Jiri Mazurek2026-03-09🤖 cs.AI

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Diese Studie zeigt, dass Large Language Models bei Bewertungsaufgaben signifikant schlechter abschneiden als bei Generierungsaufgaben und dabei oft unzuverlässige Bewertungen liefern, was die Notwendigkeit unterstreicht, die Zuverlässigkeit von KI-Modellen als Evaluatoren kritisch zu hinterfragen.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

Das Paper stellt RAG-Driver vor, ein neuartiges, retrieval-augmentiertes multimodales Large-Language-Modell, das durch kontextbasiertes Lernen mit abgerufenen Expertenbeispielen hochleistungsfähige, erklärbare und generalisierbare autonome Fahrentscheidungen trifft, ohne dass nach dem Training weitere Anpassungen erforderlich sind.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Diese Arbeit leitet modellunabhängige theoretische Untergrenzen für den Energieverbrauch neuromorpher Lern-in-Speicher-Optimierer ab, die durch die Anpassung physikalischer Speicherbarrieren an die Optimierungsdynamik die Energieeffizienz bei großen KI-Workloads maximieren.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty2026-03-09🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Die vorgestellte Arbeit stellt ein System vor, das Vision-Language-Modelle durch eine posebewusste In-Context-Learning-Methode (PA-ICVL) befähigt, visuelle Halluzinationen in Cartoon-Bildern deutlich genauer zu erkennen als herkömmliche Ansätze, die nur auf RGB-Bilder angewiesen sind.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Algorithmic Collusion by Large Language Models

Die Studie zeigt, dass auf Large Language Models basierende Preisgestaltungsagenten in Oligopolen autonom zu überkompetitiven Preisen und Gewinnen neigen, wobei bereits subtile Änderungen in den Prompts das Ausmaß dieser Kollusion erheblich beeinflussen und neue regulatorische Herausforderungen aufwerfen.

Sara Fish, Yannai A. Gonczarowski, Ran I. Shorrer2026-03-09🤖 cs.AI

Computational lexical analysis of Flamenco genres

Diese Studie nutzt computergestützte lexikalische Analysen und maschinelles Lernen, um über 2000 Flamenco-Texte automatisch ihren jeweiligen Stilen („palos") zuzuordnen, semantische Felder zu identifizieren und durch Netzwerkanalysen historische Verbindungen sowie die Evolution dieser Musiktradition quantitativ zu beleuchten.

Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez2026-03-09💬 cs.CL

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Diese Arbeit stellt eine neuartige zweistufige Pipeline für die automatische Spracherkennung vor, die unüberwachtes Clustering von X-Vektoren mit einem auf Monte-Carlo-Dropout basierenden bayesschen Batch-Active-Learning kombiniert, um durch strategische Stichprobenauswahl den Labelaufwand zu minimieren und die Modellleistung zu optimieren.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

My part is bigger than yours -- assessment within a group of peers

Der Artikel stellt einfache Modelle vor, die durch eine gewichtete Aggregation der Meinungen von Peers, bei der die Bedeutung der eigenen Einschätzung von der Bewertung durch andere abhängt, einen Konsens über die individuelle Beitragsgröße in gemeinsamen Projekten wie wissenschaftlichen Arbeiten ermöglichen.

Konrad Kułakowski, Jacek Szybowski2026-03-09🤖 cs.AI

Predictive Coding Networks and Inference Learning: Tutorial and Survey

Dieses Tutorial und die Übersicht stellen Predictive Coding Networks als eine vielversprechende, biologisch plausible und mathematisch übergeordnete Alternative zum Backpropagation-Algorithmus vor, die durch Inferenzlernen effizientere und vielseitigere Architekturen für überwachtes und unüberwachtes Lernen ermöglicht.

Björn van Zwol, Ro Jefferson, Egon L. van den Broek2026-03-09🤖 cs.AI

Transforming Agency. On the mode of existence of Large Language Models

Die Studie kommt zu dem Schluss, dass Large Language Models aufgrund fehlender körperlicher und normativer Voraussetzungen keine autonomen Agenten sind, sondern als sprachliche Automaten fungieren, die dennoch durch ihre spezifische Verleiblichung und die menschlich-maschinelle Kopplung neue Formen von „mittendriger" (midtended) Handlungsfähigkeit ermöglichen.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Das Paper stellt FALCON vor, einen selbstüberwachten Vorab-Trainingsansatz für die UAV-Aktionserkennung, der durch objektspezifisches Masking und zukunftsorientierte Rekonstruktion die Dominanz von Hintergrundinformationen überwindet und so die Genauigkeit bei gleichzeitig schnellerer Inferenz im Vergleich zu überwachten Methoden signifikant verbessert.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

UniHR: Hierarchical Representation Learning for Unified Knowledge Graph Link Prediction

Das Paper stellt UniHR vor, ein einheitliches Framework für das hierarchische Repräsentationslernen, das durch die Module HiDR und HiSL verschiedene Arten von Wissensgraphen (hyper-relational, temporal und verschachtelt) in eine gemeinsame Tripel-basierte Darstellung überführt und so eine generalisierbare Link-Vorhersage in komplexen realen Szenarien ermöglicht.

Zhiqiang Liu, Yin Hua, Mingyang Chen + 4 more2026-03-09💬 cs.CL

← Zurück Weiter →