cs.AI Arbeiten | Gist.Science

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Die Studie zeigt, dass die Methode CDD zur Erkennung von Datenkontamination in kleinen Sprachmodellen (70M–410M Parameter) in den meisten getesteten Szenarien nur zufällige Ergebnisse liefert und dabei von etablierten Wahrscheinlichkeitsmethoden wie Perplexity und Min-k% Prob übertroffen wird, da ihre Wirksamkeit kritisch von der Entstehung wortwörtlicher Memorierung abhängt.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Diese Arbeit untersucht die Fähigkeit von SPARQL-MCP-basierten intelligenten Agenten, durch die Erweiterung eines bestehenden Benchmark-Datensatzes und den Vergleich verschiedener Architekturen federiertes Abfragen über verteilte Wissensgraphen zu ermöglichen.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

Die Autoren stellen eine offene, sportübergreifende Plattform vor, die Trackingdaten in vergleichbare räumliche Kennzahlen für Ultimate Frisbee, Basketball und Fußball umwandelt, um Coachs bei der Analyse von nutzbarem Raum und dem optimalen Zeitpunkt für Laufbewegungen zu unterstützen.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Die Studie stellt zwei reinforcement-learning-basierte Rahmenwerke vor, die durch die Berücksichtigung von Ausfallwahrscheinlichkeiten die Effektivität des autonomen Options-Hedgings verbessern und nachweislich das Tail-Risiko sowie die finanzielle Stabilität in Stressszenarien erhöhen.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Die vorgestellte Arbeit führt die „Isotonic Layer" ein, ein neuartiges, differenzierbares Framework, das durch die Integration stückweiser linearer Anpassungen und lernbarer Embeddings eine universelle, kontextsensitive Entzerrung und Kalibrierung von Empfehlungssystemen ermöglicht und damit systematische Verzerrungen effektiv reduziert.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

Dieser technische Bericht stellt ein transformerbasiertes System vor, das durch die Kombination von Sequenzmodellierung, gruppenbasierten Augmentierungen, Testzeit-Training mit LoRA und symmetriebewusstem Decodieren die Leistung beim ARC-AGI-2-Problem signifikant verbessert und sich menschlicher Generalisierung annähert.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Die Studie zeigt, dass LLM-basierte Richter bei der Bewertung der adversären Robustheit von KI-Modellen aufgrund von Verteilungsverschiebungen oft nur zufällige Ergebnisse liefern und viele Angriffe deren Schwächen ausnutzen, weshalb die Autoren mit ReliableBench und JudgeStressTest neue, zuverlässigere Evaluierungsstandards vorschlagen.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Diese Arbeit stellt einen neurodynamischen Duplex-Ansatz auf zwei Zeitskalen vor, der mithilfe von Projektionsgleichungen und neuronalen Netzen verteilungsrobuste geometrische gemeinsame Chance-Nebenbedingungs-Optimierungsprobleme mit unbekannten Verteilungen löst und dabei in Wahrscheinlichkeit zum globalen Optimum konvergiert.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Dieser Artikel stellt einen „Ethics-by-Design"-Ansatz vor, der durch eine dreistufige Gate-Struktur (Metrik, Governance, Ökologie) ethische Prinzipien in messbare, durchsetzbare Kontrollmechanismen für den gesamten KI-Lebenszyklus übersetzt und so eine praktische Verbindung zwischen philosophischen Normen und operativer Governance herstellt.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Der Paper stellt „FuzzingRL" vor, eine Methode, die Fuzz-Testing mit verstärkendem Fein-Tuning kombiniert, um automatisch adversarische Fragen zu generieren, die gezielt Schwachstellen in Vision-Language-Modellen aufdecken und deren Antwortgenauigkeit signifikant senken.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Die Studie zeigt, dass semantische Daten-Duplikate mit zunehmender Modellgröße und Korpusumfang zu stärkeren Gradienten-Übereinstimmungen und schnelleren semantischen Kollisionen führen, was die Leistung größerer Modelle beeinträchtigt und eine Anpassung der Skalierungsgesetze für präzisere Vorhersagen erfordert.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Diese Arbeit entwirft eine systematische Benchmark-Suite, die Multi-Agenten-DRL-Herausforderungen in C-V2X-Ressourcenallokation isoliert und zeigt, dass Robustheit und Generalisierung gegenüber veränderlichen Verkehrstopologien die dominierenden Hürden darstellen, wobei actor-critic-Methoden die besten Ergebnisse erzielen.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Die Autoren stellen mit dem Two-Bridge Map Suite eine neue Open-Source-Benchmark für StarCraft II vor, die als intermediäre Testumgebung zwischen dem Vollspiel und Minispielen dient, indem sie ökonomische Mechaniken ausschaltet, um Reinforcement-Learning-Forschung unter realistischeren Rechenbudgets zu ermöglichen.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Die Studie zeigt, dass sich die Wahrheitstreue von Sprachmodellen in nicht verifizierbaren Domänen durch Abstimmungsmethoden oder die Skalierung der Inferenz nicht verbessern lässt, da die Fehler der Modelle stark korreliert sind und Aggregation stattdessen gemeinsame Missverständnisse verstärkt.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Die Arbeit stellt OptiRoulette vor, einen stochastischen Meta-Optimierer, der durch dynamische Auswahl von Update-Regeln aus einem Pool und speziellen Anpassungsmechanismen die Konvergenzgeschwindigkeit und -zuverlässigkeit im Vergleich zu AdamW auf mehreren Bilddatensätzen signifikant verbessert.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Die Arbeit stellt einen Annealed Co-Generation-Rahmen vor, der durch die Verwendung von paarweisen Diffusionsmodellen und einem dreistufigen Temperierungsprozess eine effiziente und konsistente multivariate Co-Generierung für wissenschaftliche Anwendungen ermöglicht, ohne die Komplexität einer gemeinsamen Hochdimensionalmodellierung zu erfordern.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Die Arbeit stellt RACER vor, einen risikobewussten, kalibrierten und effizienten Router für große Sprachmodelle, der durch die Formulierung des Routing-Problems als $\alpha$ -VOR-Problem und die Ausgabe aggregierbarer Modellsätze eine verteilungsunabhängige Risikokontrolle bei gleichzeitiger Verbesserung der Genauigkeit gewährleistet.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Die Arbeit stellt Evo vor, ein neuartiges Sprachmodell, das autoregressive und diffusionsbasierte Generierung in einem kontinuierlichen evolutionären Rahmen vereint, um durch adaptive Balance zwischen beiden Paradigmen sowohl hohe Generierungsqualität als auch schnelle Inferenz zu erreichen.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Die Autoren stellen einen neuartigen, topologiebewussten Rahmen vor, der durch Kontext-Representation-Learning, Wissensdistillation und einen Graph-Tokeniser für Multiplex-Biologische Netzwerke eine robuste Zero-Shot-Vorhersage von Interaktionen zwischen bisher unbekannten biologischen Entitäten ermöglicht.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Die Arbeit stellt NAT (Not All Tokens Are Needed) vor, ein effizientes Reinforcement-Learning-Framework, das durch das Subsampling und die Neugewichtung von Token-Updates den Rechenaufwand und den Speicherverbrauch bei langen Chain-of-Thought-Trajektorien erheblich reduziert, ohne die Lernleistung zu beeinträchtigen.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

← Zurück Weiter →