cs.LG Arbeiten | Gist.Science

Sparsity and Out-of-Distribution Generalization

Diese Arbeit bietet ein prinzipiell begründetes theoretisches Rahmenwerk für Out-of-Distribution-Generalisierung, das auf der Annahme beruht, dass spärliche Hypothesen, die sich auf wenige, durch Erfahrung hervorgehobene Merkmale stützen, auch bei Verteilungsverschiebungen robust generalisieren, sofern eine ausreichende Überlappung in den relevanten Merkmalsbereichen besteht.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Die Arbeit stellt MARIGOLD vor, ein effizientes Framework für Multi-Task-Learning, das Gradientenbalancierung als bi-level-Optimierungsproblem formuliert und durch den Einsatz von Nullter-Ordnung-Methoden die Rechenineffizienz bestehender MGDA-ähnlicher Ansätze überwindet.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Die Studie stellt einen deterministischen, reproduzierbaren Ansatz zur rechtlichen Compliance-Klassifizierung und Beweissuche vor, der transparente fuzzy-ähnliche Schwellenwerte mit einem dualen Encoder kombiniert, um einen praktikablen Mittelweg zwischen starren Regeln und undurchsichtigen großen Sprachmodellen zu schaffen.

Rian Atri2026-03-10🤖 cs.LG

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Dieses Paper stellt eine Verallgemeinerung von EDLAE durch eine entkoppelte erwartete quadratische Verlustfunktion (DEQL) vor, die effiziente Lösungen für den bisher unerschlossenen Hyperparameterbereich $b > 0$ ermöglicht und damit die Leistungsfähigkeit linearer Autoencoder-Empfehlungssysteme über die bisherigen $b = 0$ -Baselines hinaus steigert.

Ruixin Guo, Xinyu Li, Hao Zhou, Yang Zhou, Ruoming Jin2026-03-10🤖 cs.LG

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Diese Arbeit führt den informations-theoretischen Begriff der Kontext-Kanal-Kapazität ein, um zu beweisen, dass katastrophales Vergessen in kontinuierlichem Lernen unvermeidbar ist, es sei denn, die Architektur strukturell eine unbypassbare Kontextpfad-Kapazität gewährleistet, die die Entropie der Aufgabenidentität übersteigt.

Ran Cheng2026-03-10🤖 cs.LG

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Die Arbeit stellt DualSpec vor, ein heterogenes Spekulationsframework für Deep-Research-Agenten, das die unterschiedlichen Anforderungen von Such- und Besuchsaktionen nutzt, um durch einen leichten semantischen Verifizierer die End-to-End-Latenz um bis zu 3,28-fach zu reduzieren, ohne die Genauigkeit zu beeinträchtigen.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li2026-03-10🤖 cs.LG

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Das Paper stellt OrthoFormer vor, eine kausal fundierte Transformer-Architektur, die Instrumentalvariablenschätzung durch neuronale Kontrollfunktionen integriert, um durch die Trennung statischer Hintergrundfaktoren von dynamischen kausalen Flüssen die Anfälligkeit für konfundierende Verzerrungen zu überwinden und robuste Vorhersagen unter Verteilungsverschiebungen zu ermöglichen.

Charles Luo2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Die Arbeit stellt „Data Agent" vor, einen End-to-End-Framework für die dynamische Datenselektion, der durch eine trainingsbewusste sequenzielle Entscheidungsfindung und adaptive Belohnungssignale das Training beschleunigt und dabei die Leistung erhält oder verbessert.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Dieser zweite Teil der Arbeit untersucht kostengesteuertes Repräsentationslernen für die lineare quadratische Gaußsche (LQG) Regelung mit unendlichem Zeithorizont, indem er finite-Sample-Garantien für die Lernverfahren bietet, die entweder explizite oder implizite latente Dynamikmodelle (ähnlich MuZero) nutzen, und dabei eine neue technische Leistung zur Persistenz der Erregung für stochastische Prozesse erbringt.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Die Arbeit stellt PACT vor, einen Feinabstimmungsansatz, der die Sicherheitsausrichtung von großen Sprachmodellen bewahrt, indem er gezielt nur die Konfidenz auf sicherheitsrelevanten Tokens während des Trainings an ein Referenzmodell angepasst wird, um so einen Abgleichsverlust zu verhindern, ohne die Leistung bei downstream-Aufgaben zu beeinträchtigen.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Die vorgestellte Arbeit zeigt, dass eine diskretisierte Tokenisierung in Kombination mit adaptiver Gauß-Glättung Transformer-Modelle befähigt, auf Tabellendaten nicht nur besser als optimierte Gradient-Boosting-Verfahren zu kalibrieren und zu prognostizieren, sondern auch eine überlegene Genauigkeit und Effizienz zu erreichen.

Yael S. Elmatad2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Die Arbeit stellt SLNet vor, einen super-leichtgewichtigen und geometrieadaptiven Backbone für die 3D-Punktwolken-Erkennung, der durch innovative Komponenten wie NAPE und GMU eine hohe Genauigkeit bei deutlich geringerem Rechenaufwand und weniger Parametern als bestehende Modelle erreicht.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Die vorgestellte Dual-Stream-Transformer-Architektur entkoppelt den Residual-Stream in einen durch Attention aktualisierten Token-Stream und einen durch Feed-Forward-Netzwerke aktualisierten Kontext-Stream, um durch skalierbare Mischstrategien eine nachweisbare Balance zwischen Interpretierbarkeit und Leistungsfähigkeit zu ermöglichen.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Die Arbeit stellt AFTUNE vor, ein Framework, das durch leichte Aufzeichnung und Stichprobenprüfungen die Integrität von Fine-Tuning und Inferenz proprietärer KI-Modelle in der Cloud nachweisbar und überprüfbar macht, ohne dabei einen unpraktischen Rechenaufwand zu verursachen.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG

Probabilistic Inference and Learning with Stein's Method

Diese Monografie bietet einen rigorosen Überblick über theoretische und methodische Aspekte der probabilistischen Inferenz und des Lernens mit Steinscher Methode, einschließlich der Konstruktion von Stein-Diskrepanzen, ihrer Eigenschaften sowie der detaillierten Verbindung zu Steinschem variationsbasiertem Gradientenabstieg.

Qiang Liu, Lester Mackey, Chris Oates2026-03-10🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Diese Arbeit stellt einen leichten Rahmen vor, der durch selbstüberwachtes Training von Low-Rank-Adaptern an einem eingefrorenen Backbone weniger als 1 % der Parameter aktualisiert und so Speech-Enhancement-Modelle für den effizienten Einsatz in Echtzeit-Umgebungen mit dynamischen akustischen Szenen optimiert.

Longbiao Cheng, Shih-Chii Liu2026-03-10🤖 cs.LG

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

Diese Studie stellt ein bedingtes Diffusions-Transformer-Framework vor, das mithilfe von Hi-C-Kontaktkarten und einem latenten Diffusionsmodell mit Flow-Matching-Objektiv Ensembles dreidimensionaler E. coli-Genomkonformationen generiert, die sowohl die experimentellen Daten als auch eine hohe strukturelle Diversität widerspiegeln.

Mingxin Zhang, Xiaofeng Dai, Yu Yao, Ziqi Yin2026-03-10🤖 cs.LG

Interpretable-by-Design Transformers via Architectural Stream Independence

Die vorgestellte Arbeit zeigt, dass durch die architektonische Trennung von Token-Strömen und kontextueller Semantik bis zur späten Fusion (Late Fusion Architecture) Transformatoren von Grund auf interpretierbarer gestaltet werden können, indem sie eine funktionale Modularität bewahren und eine vorzeitige Verflechtung verhindern.

Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

← Zurück Weiter →