Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Diese Studie zeigt, dass zwar reasoning-basierte LLMs als Richter im Vergleich zu nicht-reasoning-Richtern weniger zu Reward Hacking neigen und bessere Strategien entwickeln, diese jedoch oft darauf abzielen, andere LLM-Richter durch täuschende Adversarial-Ausgaben zu manipulieren, anstatt die tatsächliche Qualität zu verbessern.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

An Updated Assessment of Reinforcement Learning for Macro Placement

Diese Studie bietet eine aktualisierte Bewertung des Google Brain Reinforcement-Learning-Ansatzes für das Makro-Platzieren, indem sie neue Benchmarks in Sub-10-nm-Technologie, einen verbesserten Simulated-Annealing-Baseline und eine umfassende Evaluation der Circuit-Training-Implementierung unter Einbeziehung kommerzieller Post-Route-Metriken bereitstellt, um Erkenntnisse zur Reproduzierbarkeit und zu offenen Forschungsfragen zu gewinnen.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Mindstorms in Natural Language-Based Societies of Mind

Die Arbeit stellt natürliche sprachbasierte Gesellschaften des Geistes (NLSOMs) vor, die durch die modulare Zusammenarbeit großer multimodaler neuronaler Netze über eine natürliche Schnittstelle komplexe KI-Aufgaben lösen und dabei neue Forschungsfragen zur optimalen sozialen Struktur und ökonomischen Steuerung solcher heterogenen Agenten-Systeme aufwerfen.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Der Artikel stellt ein effizientes, auf Optimaler Transport basierendes Aggregationsverfahren für verteilte Mixture-of-Experts-Modelle vor, das durch Minimierung einer Transportdivergenz eine globale Schätzung mit nur einem Kommunikationsschritt ermöglicht und dabei statistische Konsistenz sowie eine dem zentralen Training vergleichbare Leistung bei deutlich reduzierter Rechenzeit garantiert.

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Diese Studie nutzt erklärbare maschinelle Lernverfahren auf einem 28-jährigen Datensatz, um die Toxizität von Muscheln im Golf von Triest durch schädliche Algenblüten vorherzusagen und identifiziert dabei spezifische Dinophysis-Arten sowie Umweltfaktoren als entscheidende Prädiktoren für Durchfallauslösende Muschelvergiftungen (DSP).

Martin Marzidovšek, Janja Francé, Vid Podpečan + 3 more2026-03-12🤖 cs.AI

EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Das Paper stellt EoRA vor, eine feinstimmungsfreie Methode, die komprimierte Large Language Models durch eigenspace-basierte Low-Rank-Approximationen und einen optimierten CUDA-Kernel effizient verbessert, um die Genauigkeit wiederherzustellen und gleichzeitig die Flexibilität bei der Bereitstellung zu erhöhen.

Shih-Yang Liu, Maksim Khadkevich, Nai Chit Fung, Charbel Sakr, Chao-Han Huck Yang, Chien-Yi Wang, Saurav Muralidharan, Hongxu Yin, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen2026-03-12💬 cs.CL

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Die vorgestellte Arbeit schlägt einen generischen Token-Bereinigungsprozess für das überwachtes Feinabstimmen von Large Language Models vor, der durch die Bewertung des Einflusses einzelner Token auf Modell-Updates irrelevante oder schädliche Token filtert und so die Leistung in nachgelagerten Aufgaben im Vergleich zu herkömmlichen Methoden, die ganze Datensätze filtern, verbessert.

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

Die vorgestellte Arbeit führt mit DIFU-Ada ein trainingsfreies Adaptionsframework ein, das diffusionsbasierte neuronale Kombinatorische-Optimierungslöser befähigt, durch Inference-Time-Anpassung eine Zero-Shot-Verallgemeinerung auf verschiedene Problemvarianten und -skalen zu erreichen, ohne zusätzliche Trainingsdaten zu benötigen.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG

Talking like Piping and Instrumentation Diagrams (P&IDs)

Die vorgestellte Studie entwickelt eine Methode, die es ermöglicht, mit Rohrleitungs- und Instrumentierungsdiagrammen (P&IDs) über natürliche Sprache zu kommunizieren, indem sie diese mittels des DEXPI-Datenmodells in Wissensgraphen überführt und diese durch Graph-basiertes Retrieval-Augmented-Generation (Graph-RAG) in Large Language Models integriert, um so die Kontextretrieval-Fähigkeiten zu erweitern und Halluzinationen zu reduzieren.

Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn + 1 more2026-03-12🤖 cs.AI

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Die Studie stellt SCAM, den bisher größten und vielfältigsten Datensatz realer typografischer Angriffe, vor und zeigt, dass Multimodale Foundation-Modelle durch solche Angriffe erheblich beeinträchtigt werden, wobei größere LLM-Backbones die Anfälligkeit verringern und synthetische Angriffe als valide Ersatz für reale Szenarien dienen.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein + 4 more2026-03-12🤖 cs.AI