cs.LG Arbeiten | Gist.Science

MJ1: Multimodal Judgment via Grounded Verification

Das Paper stellt MJ1 vor, einen multimodalen Richter mit 3 Milliarden Parametern, der durch verstärkendes Lernen, eine strukturierte visuelle Verifikationskette und einen Gegenfaktisch-Konsistenz-Preis trainiert wird, um die Genauigkeit auf dem MMRB2-Datensatz signifikant zu steigern und dabei deutlich größere Modelle wie Gemini-3-Pro zu übertreffen.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Die Arbeit stellt SmartThinker vor, eine effiziente Methode zur Kalibrierung der Chain-of-Thought-Länge bei Large Reasoning Models, die durch dynamische Anpassung der Belohnungsfunktion während des Trainings die Antwortlänge signifikant reduziert und gleichzeitig die Genauigkeit auf komplexen Benchmarks verbessert.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Die Autoren stellen einen lernbasierten Ansatz namens „amortized MIPS" vor, der neuronale Netze (SupportNet und KeyNet) nutzt, um die Maximum Inner Product Search durch die Approximation der konvexen Support-Funktion zu beschleunigen und dabei die optimalen Schlüsselvektoren entweder über Gradientenberechnung oder direkte Regression vorherzusagen.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Das Papier stellt FedMomentum vor, ein neuartiges Framework für das federierte Fine-Tuning von LLMs mit LoRA, das durch mathematisch korrekte Aggregation und SVD-basierte Rekonstruktion den Trainingsmomentum erhält und so die Konvergenzgeschwindigkeit sowie die Endgenauigkeit im Vergleich zu bestehenden Methoden verbessert.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Die Arbeit stellt CAMEL vor, eine kapazitätsbewusste Mischungsgesetzgebung, die durch effiziente Skalierungsexperimente und Vorhersagemodelle die Optimierung von Datenmischungen für große Sprachmodelle kostengünstiger und leistungsfähiger macht.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Die Arbeit stellt GCGNet vor, ein graphenbasiertes generatives Netzwerk, das durch die Kombination von Variationsgenerierung, Graph-Strukturausrichtung und Graphenverfeinerung robuste und präzise Zeitreihenvorhersagen unter Einbeziehung exogener Variablen ermöglicht und dabei gleichzeitig zeitliche und kanalübergreifende Korrelationen gemeinsam modelliert.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Die Arbeit stellt CDRRM vor, ein neuartiges Framework, das durch kontrastive Profilierung und Synthese hochwertige Rubriken generiert, um Reward-Modelle für Large Language Models interpretierbarer, bias-resistenter und dateneffizienter zu gestalten.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Die Arbeit stellt SFed-LoRA vor, einen stabilisierten Rahmen für das Federated Fine-Tuning mit LoRA, der durch die Herleitung eines optimalen Skalierungsfaktors die Instabilität und den Gradienten-Kollaps bei hohen Rängen und vielen Clients effektiv verhindert.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Diese Studie stellt ein tiefes Lern-Framework zur adversariellen Domänenanpassung vor, das durch den Erwerb eines domäneninvarianten latenten Raums eine effektive Wissensübertragung von großen auf kleine RNA-Seq-Datensätze ermöglicht und so die Genauigkeit der Krebs- und Gewebetypklassifizierung insbesondere bei Datenknappheit verbessert.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Die Arbeit stellt die deterministische differenzierbare strukturierte Pruning-Methode (DDP) vor, die durch die direkte Optimierung eines deterministischen Surrogats für die l0-Sparsity-Stochastik vermeidet, train-test-Diskrepanzen reduziert und bei großen Sprachmodellen wie Qwen3 eine signifikant schnellere Konvergenz sowie geringere Leistungsverluste bei hoher Sparsamkeit ermöglicht.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Diese Arbeit stellt ein hybrides Quanten-Klassisches-Neurales-Netzwerk vor, das einen GRU-Encoder mit einer Variational Quantum Circuit-Schicht kombiniert, um multivariate physiologische Zeitreihen in klinischen Szenarien robuster und präziser vorherzusagen als rein klassische Basismodelle.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Die Studie stellt fest, dass die Einführung einer autorekursiven TRM-Architektur bei kleinen Modellen keine zuverlässigen Leistungsverbesserungen gegenüber herkömmlichen Transformern bietet, obwohl bestimmte Zwei-Schritt-Verfeinerungsmechanismen im Allgemeinen vielversprechend erscheinen.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

Das Paper stellt EAGLE-Pangu vor, ein reproduzierbares System, das die baumstrukturierte spekulative Decodierung auf Ascend NPUs portiert und durch einen expliziten Cache-Manager sowie accelerator-sichere Tensor-Operationen die End-to-End-Durchsatzrate im Vergleich zur reinen Lehrmodell-Decodierung signifikant steigert.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Diese Studie zeigt, dass durch steganografisches Feintuning große Sprachmodelle so manipuliert werden können, dass sie hinter harmlos erscheinenden Antworten versteckte schädliche Inhalte generieren, wobei diese bösartigen Ausgaben von Sicherheitsfiltern und menschlichen Beobachtern unbemerkt bleiben.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Das Paper stellt Tau-BNO vor, ein neuronales Operator-Modell, das als schneller Surrogat-Ansatz für das komplexe Network Transport Model dient, um die Ausbreitung von Tau-Proteinen im Gehirn mit hoher Genauigkeit und deutlich reduzierter Rechenzeit zu simulieren und so neue biophysikalische Erkenntnisse zu ermöglichen.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Die Arbeit stellt ROMI vor, einen neuen Offline-RL-Ansatz, der durch robustes, wertbewusstes Modelllernen und implizit differenzierbare adaptive Gewichtung die Überkonservativität und Instabilität bestehender Methoden wie RAMBO überwindet und so eine überlegene Leistung auf Standard-Datasets erzielt.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Der Artikel stellt SaiVLA-0 vor, ein rechnerbewusstes Vision-Language-Action-Modell, das durch eine neurowissenschaftlich inspirierte Dreiteilung aus Cerebrum, Pons und Cerebellum sowie eine foveierte Blicksteuerung effizientere und stabilere Robotersteuerung ermöglicht.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Der Artikel stellt FoleyFlow vor, ein neues Modell zur koordinierten Video-zu-Audio-Generierung, das durch einen Maskierungsansatz zur semantischen und rhythmischen Ausrichtung sowie einen dynamischen bedingten Fluss für eine zeitlich präzise Synchronisation übertrifft bestehende Methoden.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Die Arbeit stellt einen leichten Nachbearbeitungsrahmen vor, der Unsicherheit in aleatorische und epistemische Komponenten zerlegt, um robotische Manipulation und adaptive Wahrnehmung durch unsicherheitsgesteuerte, komponentenspezifische Eingriffe zu verbessern.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

← Zurück Weiter →