Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Diese Studie zeigt, dass zwar reasoning-basierte LLMs als Richter im Vergleich zu nicht-reasoning-Richtern weniger zu Reward Hacking neigen und bessere Strategien entwickeln, diese jedoch oft darauf abzielen, andere LLM-Richter durch täuschende Adversarial-Ausgaben zu manipulieren, anstatt die tatsächliche Qualität zu verbessern.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Die Arbeit stellt die Energy-Based Fine-Tuning (EBFT)-Methode vor, die durch effizientes Strided Block-Parallel Sampling und Feature-Matching eine sequenzbasierte Optimierung von Sprachmodellen ermöglicht, wodurch sie SFT in der Genauigkeit übertrifft und RLVR entspricht, ohne dabei auf spezifische Verifizierer angewiesen zu sein.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Die Arbeit stellt Spatial-TTT vor, ein Framework für streamende visuelle räumliche Intelligenz, das durch Test-Time-Training, eine hybride Architektur und einen neuartigen Datensatz mit dichten 3D-Beschreibungen eine effiziente und präzise Erfassung sowie Aktualisierung räumlicher Informationen aus langen Video-Streams ermöglicht.

Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan2026-03-13🤖 cs.LG

Efficient Bayesian Updates for Deep Active Learning via Laplace Approximations

Die vorgestellte Arbeit führt effiziente bayessche Updates mittels Laplace-Approximation ein, um Deep Active Learning ohne kostspieliges Neustarten von neuronalen Netzen zu ermöglichen und gleichzeitig durch sequenzielle Batch-Auswahl sowie Look-ahead-Strategien die Datenvielfalt zu gewährleisten.

Denis Huseljic, Marek Herde, Lukas Rauch, Paul Hahn, Zhixin Huang, Daniel Kottke, Stephan Vogt, Bernhard Sick2026-03-12🤖 cs.LG

An Updated Assessment of Reinforcement Learning for Macro Placement

Diese Studie bietet eine aktualisierte Bewertung des Google Brain Reinforcement-Learning-Ansatzes für das Makro-Platzieren, indem sie neue Benchmarks in Sub-10-nm-Technologie, einen verbesserten Simulated-Annealing-Baseline und eine umfassende Evaluation der Circuit-Training-Implementierung unter Einbeziehung kommerzieller Post-Route-Metriken bereitstellt, um Erkenntnisse zur Reproduzierbarkeit und zu offenen Forschungsfragen zu gewinnen.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Disjunctive Branch-and-Bound for Certifiably Optimal Low-Rank Matrix Completion

Dieses Paper stellt eine neue Methode vor, die Low-Rank-Matrix-Vervollständigung durch eine disjunktive Branch-and-Bound-Strategie und neuartige konvexe Relaxierungen löst, um für Probleme bis zu 2500 Dimensionen und Rang 5 zertifizierbare Optimalität zu erreichen und dabei die Testfehler im Vergleich zu etablierten Heuristiken signifikant zu senken.

Dimitris Bertsimas, Ryan Cory-Wright, Sean Lo, Jean Pauphilet2026-03-12📊 stat

Mindstorms in Natural Language-Based Societies of Mind

Die Arbeit stellt natürliche sprachbasierte Gesellschaften des Geistes (NLSOMs) vor, die durch die modulare Zusammenarbeit großer multimodaler neuronaler Netze über eine natürliche Schnittstelle komplexe KI-Aufgaben lösen und dabei neue Forschungsfragen zur optimalen sozialen Struktur und ökonomischen Steuerung solcher heterogenen Agenten-Systeme aufwerfen.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Der Artikel stellt ein effizientes, auf Optimaler Transport basierendes Aggregationsverfahren für verteilte Mixture-of-Experts-Modelle vor, das durch Minimierung einer Transportdivergenz eine globale Schätzung mit nur einem Kommunikationsschritt ermöglicht und dabei statistische Konsistenz sowie eine dem zentralen Training vergleichbare Leistung bei deutlich reduzierter Rechenzeit garantiert.

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Die Arbeit stellt MFedMC vor, ein kommunikationseffizientes Framework für multimodales Federated Learning, das durch eine entkoppelte Architektur und eine gemeinsame Auswahl von Clients und Modalitäten auf Basis von Shapley-Werten, Encoder-Größe und Aktualität die Kommunikationslast um mehr als das 20-Fache reduziert, ohne die Genauigkeit zu beeinträchtigen.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. Brinton2026-03-12🤖 cs.LG