SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Die Arbeit stellt SmartThinker vor, eine effiziente Methode zur Kalibrierung der Chain-of-Thought-Länge bei Large Reasoning Models, die durch dynamische Anpassung der Belohnungsfunktion während des Trainings die Antwortlänge signifikant reduziert und gleichzeitig die Genauigkeit auf komplexen Benchmarks verbessert.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Die Autoren stellen einen lernbasierten Ansatz namens „amortized MIPS" vor, der neuronale Netze (SupportNet und KeyNet) nutzt, um die Maximum Inner Product Search durch die Approximation der konvexen Support-Funktion zu beschleunigen und dabei die optimalen Schlüsselvektoren entweder über Gradientenberechnung oder direkte Regression vorherzusagen.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Die Arbeit stellt GCGNet vor, ein graphenbasiertes generatives Netzwerk, das durch die Kombination von Variationsgenerierung, Graph-Strukturausrichtung und Graphenverfeinerung robuste und präzise Zeitreihenvorhersagen unter Einbeziehung exogener Variablen ermöglicht und dabei gleichzeitig zeitliche und kanalübergreifende Korrelationen gemeinsam modelliert.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Diese Studie stellt ein tiefes Lern-Framework zur adversariellen Domänenanpassung vor, das durch den Erwerb eines domäneninvarianten latenten Raums eine effektive Wissensübertragung von großen auf kleine RNA-Seq-Datensätze ermöglicht und so die Genauigkeit der Krebs- und Gewebetypklassifizierung insbesondere bei Datenknappheit verbessert.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Die Arbeit stellt die deterministische differenzierbare strukturierte Pruning-Methode (DDP) vor, die durch die direkte Optimierung eines deterministischen Surrogats für die l0-Sparsity-Stochastik vermeidet, train-test-Diskrepanzen reduziert und bei großen Sprachmodellen wie Qwen3 eine signifikant schnellere Konvergenz sowie geringere Leistungsverluste bei hoher Sparsamkeit ermöglicht.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Die Arbeit stellt ROMI vor, einen neuen Offline-RL-Ansatz, der durch robustes, wertbewusstes Modelllernen und implizit differenzierbare adaptive Gewichtung die Überkonservativität und Instabilität bestehender Methoden wie RAMBO überwindet und so eine überlegene Leistung auf Standard-Datasets erzielt.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Die Arbeit stellt einen leichten Nachbearbeitungsrahmen vor, der Unsicherheit in aleatorische und epistemische Komponenten zerlegt, um robotische Manipulation und adaptive Wahrnehmung durch unsicherheitsgesteuerte, komponentenspezifische Eingriffe zu verbessern.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG