Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Die Arbeit stellt MARIGOLD vor, ein effizientes Framework für Multi-Task-Learning, das Gradientenbalancierung als bi-level-Optimierungsproblem formuliert und durch den Einsatz von Nullter-Ordnung-Methoden die Rechenineffizienz bestehender MGDA-ähnlicher Ansätze überwindet.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Dieses Paper stellt eine Verallgemeinerung von EDLAE durch eine entkoppelte erwartete quadratische Verlustfunktion (DEQL) vor, die effiziente Lösungen für den bisher unerschlossenen Hyperparameterbereich b>0b > 0 ermöglicht und damit die Leistungsfähigkeit linearer Autoencoder-Empfehlungssysteme über die bisherigen b=0b = 0-Baselines hinaus steigert.

Ruixin Guo, Xinyu Li, Hao Zhou, Yang Zhou, Ruoming Jin2026-03-10🤖 cs.LG

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Das Paper stellt OrthoFormer vor, eine kausal fundierte Transformer-Architektur, die Instrumentalvariablenschätzung durch neuronale Kontrollfunktionen integriert, um durch die Trennung statischer Hintergrundfaktoren von dynamischen kausalen Flüssen die Anfälligkeit für konfundierende Verzerrungen zu überwinden und robuste Vorhersagen unter Verteilungsverschiebungen zu ermöglichen.

Charles Luo2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Dieser zweite Teil der Arbeit untersucht kostengesteuertes Repräsentationslernen für die lineare quadratische Gaußsche (LQG) Regelung mit unendlichem Zeithorizont, indem er finite-Sample-Garantien für die Lernverfahren bietet, die entweder explizite oder implizite latente Dynamikmodelle (ähnlich MuZero) nutzen, und dabei eine neue technische Leistung zur Persistenz der Erregung für stochastische Prozesse erbringt.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Die Arbeit stellt PACT vor, einen Feinabstimmungsansatz, der die Sicherheitsausrichtung von großen Sprachmodellen bewahrt, indem er gezielt nur die Konfidenz auf sicherheitsrelevanten Tokens während des Trainings an ein Referenzmodell angepasst wird, um so einen Abgleichsverlust zu verhindern, ohne die Leistung bei downstream-Aufgaben zu beeinträchtigen.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG