cs.AI Arbeiten | Gist.Science

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Die Studie zeigt, dass LLM-basierte Richter bei der Bewertung der adversären Robustheit von KI-Modellen aufgrund von Verteilungsverschiebungen oft nur zufällige Ergebnisse liefern und viele Angriffe deren Schwächen ausnutzen, weshalb die Autoren mit ReliableBench und JudgeStressTest neue, zuverlässigere Evaluierungsstandards vorschlagen.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Diese Arbeit stellt einen neurodynamischen Duplex-Ansatz auf zwei Zeitskalen vor, der mithilfe von Projektionsgleichungen und neuronalen Netzen verteilungsrobuste geometrische gemeinsame Chance-Nebenbedingungs-Optimierungsprobleme mit unbekannten Verteilungen löst und dabei in Wahrscheinlichkeit zum globalen Optimum konvergiert.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Dieser Artikel stellt einen „Ethics-by-Design"-Ansatz vor, der durch eine dreistufige Gate-Struktur (Metrik, Governance, Ökologie) ethische Prinzipien in messbare, durchsetzbare Kontrollmechanismen für den gesamten KI-Lebenszyklus übersetzt und so eine praktische Verbindung zwischen philosophischen Normen und operativer Governance herstellt.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Der Paper stellt „FuzzingRL" vor, eine Methode, die Fuzz-Testing mit verstärkendem Fein-Tuning kombiniert, um automatisch adversarische Fragen zu generieren, die gezielt Schwachstellen in Vision-Language-Modellen aufdecken und deren Antwortgenauigkeit signifikant senken.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Die Studie zeigt, dass semantische Daten-Duplikate mit zunehmender Modellgröße und Korpusumfang zu stärkeren Gradienten-Übereinstimmungen und schnelleren semantischen Kollisionen führen, was die Leistung größerer Modelle beeinträchtigt und eine Anpassung der Skalierungsgesetze für präzisere Vorhersagen erfordert.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Diese Arbeit entwirft eine systematische Benchmark-Suite, die Multi-Agenten-DRL-Herausforderungen in C-V2X-Ressourcenallokation isoliert und zeigt, dass Robustheit und Generalisierung gegenüber veränderlichen Verkehrstopologien die dominierenden Hürden darstellen, wobei actor-critic-Methoden die besten Ergebnisse erzielen.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Die Autoren stellen mit dem Two-Bridge Map Suite eine neue Open-Source-Benchmark für StarCraft II vor, die als intermediäre Testumgebung zwischen dem Vollspiel und Minispielen dient, indem sie ökonomische Mechaniken ausschaltet, um Reinforcement-Learning-Forschung unter realistischeren Rechenbudgets zu ermöglichen.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Die Studie zeigt, dass sich die Wahrheitstreue von Sprachmodellen in nicht verifizierbaren Domänen durch Abstimmungsmethoden oder die Skalierung der Inferenz nicht verbessern lässt, da die Fehler der Modelle stark korreliert sind und Aggregation stattdessen gemeinsame Missverständnisse verstärkt.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Die Arbeit stellt OptiRoulette vor, einen stochastischen Meta-Optimierer, der durch dynamische Auswahl von Update-Regeln aus einem Pool und speziellen Anpassungsmechanismen die Konvergenzgeschwindigkeit und -zuverlässigkeit im Vergleich zu AdamW auf mehreren Bilddatensätzen signifikant verbessert.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Die Arbeit stellt einen Annealed Co-Generation-Rahmen vor, der durch die Verwendung von paarweisen Diffusionsmodellen und einem dreistufigen Temperierungsprozess eine effiziente und konsistente multivariate Co-Generierung für wissenschaftliche Anwendungen ermöglicht, ohne die Komplexität einer gemeinsamen Hochdimensionalmodellierung zu erfordern.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Die Arbeit stellt RACER vor, einen risikobewussten, kalibrierten und effizienten Router für große Sprachmodelle, der durch die Formulierung des Routing-Problems als $\alpha$ -VOR-Problem und die Ausgabe aggregierbarer Modellsätze eine verteilungsunabhängige Risikokontrolle bei gleichzeitiger Verbesserung der Genauigkeit gewährleistet.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Die Arbeit stellt Evo vor, ein neuartiges Sprachmodell, das autoregressive und diffusionsbasierte Generierung in einem kontinuierlichen evolutionären Rahmen vereint, um durch adaptive Balance zwischen beiden Paradigmen sowohl hohe Generierungsqualität als auch schnelle Inferenz zu erreichen.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Die Autoren stellen einen neuartigen, topologiebewussten Rahmen vor, der durch Kontext-Representation-Learning, Wissensdistillation und einen Graph-Tokeniser für Multiplex-Biologische Netzwerke eine robuste Zero-Shot-Vorhersage von Interaktionen zwischen bisher unbekannten biologischen Entitäten ermöglicht.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Die Arbeit stellt NAT (Not All Tokens Are Needed) vor, ein effizientes Reinforcement-Learning-Framework, das durch das Subsampling und die Neugewichtung von Token-Updates den Rechenaufwand und den Speicherverbrauch bei langen Chain-of-Thought-Trajektorien erheblich reduziert, ohne die Lernleistung zu beeinträchtigen.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Das Paper stellt GraphSkill vor, ein hierarchisches Retrieval-Augmented-Coding-Framework mit einem selbst-debuggenden Agenten, das durch die Ausnutzung der Dokumentenhierarchie und die Generierung von Testfällen die Genauigkeit und Kosteneffizienz bei komplexen Graphen-Reasoning-Aufgaben verbessert.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Diese Studie zeigt, dass ein Transformer-Modell mit Selbst-Aufmerksamkeitsmechanismen bei der Vorhersage des kurzfristigen Stromlastverbrauchs auf Basis von PJM-Daten ARIMA, LSTM und BiLSTM in Bezug auf Genauigkeit und Robustheit übertrifft.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Die Arbeit stellt die Exploration Space Theory (EST) vor, ein formales Gittertheorie-Framework für ortsbezogene Empfehlungssysteme, das Abhängigkeiten zwischen Sehenswürdigkeiten modelliert und durch die Exploration Space Recommender System (ESRS) strukturell garantierte, valide nächste Schritte sowie effiziente Pfadgenerierung ermöglicht.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Diese Studie stellt ein auf kollektivem Lernen basierendes Graph-Neuronales-Netzwerk-Modell vor, das die Abhängigkeiten zwischen benachbarten Straßenabschnitten nutzt, um fehlende Daten zur Straßenzustandsbewertung präzise zu ergänzen und so die Verzerrungen durch unvollständige Inspektionsdaten zu minimieren.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Die Arbeit stellt Grouter vor, eine Methode zur Entkopplung des Routings von der Repräsentation durch die Verwendung vorab trainierter Strukturpriors, die das MoE-Training beschleunigt, die Konvergenz stabilisiert und die Datennutzung sowie den Durchsatz signifikant verbessert.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

Photons = Tokens: The Physics of AI and the Economics of Knowledge

Dieses Papier wendet physikalische und ökonomische Prinzipien an, um den Token als thermische Einheit zu definieren, globale Produktionsgrenzen zu berechnen und zu argumentieren, dass die entscheidende Herausforderung nicht die Menge der beantwortbaren Fragen, sondern die Auswahl der richtigen Fragen unter struktureller Unsicherheit ist.

Alec Litowitz, Nick Polson, Vadim Sokolov2026-03-10🔬 physics

← Zurück Weiter →