cs.LG Arbeiten | Gist.Science

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Diese Studie verbessert die Vorhersage des metabolischen Syndroms durch einen neuartigen hybriden Rahmen (MetaBoost) zur Optimierung des Datenbalancings und durch eine kontrafaktische Analyse, die Blutzucker und Triglyceride als entscheidende klinische Risikofaktoren identifiziert.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Die Studie zeigt, dass die Kombination von Large Language Models zur Extraktion linguistischer und kognitiver Merkmale mit baumbasierten maschinellen Lernalgorithmen eine genauere Schätzung der Aufgabenschwierigkeit für K-5-Mathematik- und Lesetests ermöglicht als direkte LLM-Schätzungen und somit den Bedarf an aufwendigen Vorabtests reduziert.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Diese Arbeit stellt einen visionbasierten Reinforcement-Learning-Agenten vor, der ausschließlich auf egozentrischen Kamerabildern und Onboard-Sensordaten basiert und in Gran Turismo 7 erstmals champion-level Leistung in wettbewerbsfähigen Rennszenarien erzielt, ohne auf externe Lokalisierung angewiesen zu sein.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Die Autoren entwickeln ein lineares Antwortframework, das neuronale Netze als bayessche statistisch-mechanische Systeme behandelt, um durch lokale Störungen der Datenverteilung effizient berechenbare Suszeptibilitäten zu ermitteln, die als Attributionswerte dienen und funktionale Module in kleinen Transformern aufdecken.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Die Arbeit stellt HetGL2R vor, einen heterogenen Graph-Lernrahmen, der durch die Integration von Origin-Destination-Flüssen und Routeninformationen in einem Tripartiten-Graphen sowie die Nutzung von Attribut-führten Graphen und Transformer-Encodern die Bedeutung von Straßenabschnitten präziser rankt als bestehende Methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Die Arbeit stellt StablePCA vor, einen verteilungsrobusten Rahmen zur Extraktion stabiler latenter Darstellungen aus multi-sourcigen Daten durch Maximierung der worst-case erklärten Varianz, der mittels konvexer Relaxierung und eines effizienten Mirror-Prox-Algorithmus mit globalen Konvergenzgarantien gelöst wird.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dieses Papier stellt einen individualisierten Offline-Verstärkungslernrahmen für heterogene Zeit-stationäre MDPs vor, der mithilfe eines Modells mit individuellen latenten Variablen und des P4L-Algorithmus suboptimale Polices für heterogene Populationen vermeidet und eine schnelle Regret-Konvergenz unter schwachen Annahmen garantiert.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Die Studie „Distilled Circuits" nutzt mechanistische Interpretierbarkeit, um zu zeigen, dass Wissensdistillation bei Modellen wie DistilGPT2 nicht nur die Ausgabe, sondern auch die internen Berechnungsstrukturen durch Reorganisation und Kompression von Komponenten grundlegend verändert, was weitreichende Folgen für Robustheit und Generalisierung hat.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Die Arbeit stellt Ready2Unlearn vor, einen proaktiven Lernzeit-Ansatz, der Modelle mittels Meta-Learning-Prinzipien so trainiert, dass sie zukünftige Löschungsanforderungen effizienter und prinzipienorientierter erfüllen können, anstatt sich ausschließlich auf reaktive Nachbearbeitung zu verlassen.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Die Arbeit stellt zwei neue Online-Algorithmen für das Entscheidungsorientierte Lernen in dynamischen Umgebungen vor, die durch Regularisierung und Perturbations-Techniken differenzierbare, nicht-konvexe Probleme lösen und erstmals statische sowie dynamische Regret-Schranken garantieren.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Die Arbeit stellt Vid2World vor, einen allgemeinen Ansatz, der vortrainierte Videodiffusionsmodelle durch systematische Kausalität, Architekturänderungen und eine kausale Aktionssteuerung in interaktive Weltmodelle umwandelt, um hochwertige Vorhersagen für komplexe Entscheidungsprozesse zu ermöglichen.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Das Paper stellt WikiDBGraph vor, eine umfassende Benchmark-Suite aus 100.000 realen relationalen Datenbanken, die die Lücke zwischen theoretischen kollaborativen Lernansätzen und der praktischen Bewältigung unstrukturierter, fragmentierter Datensilos durch die Einbeziehung des gesamten Datenmanagement-Workflows aufzeigt.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Dieses Paper stellt AgarCL vor, eine auf dem Spiel Agar.io basierende Forschungsplattform für kontinuierliches Reinforcement Learning, die eine nicht-episodische, hochdimensionale Umgebung mit stochastischen Dynamiken bietet und zeigt, dass herkömmliche Methoden sowie spezielle kontinuierliche Lernansätze dort nur begrenzte Verbesserungen erzielen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

Die Studie stellt X-MethaneWet vor, den ersten globalen Benchmark-Datensatz für Feuchtgebiet-Methanemissionen, der physikalische Simulationen mit Felddaten kombiniert, um durch den Einsatz von Deep-Learning-Modellen und Transfer-Learning-Techniken die Genauigkeit und Skalierbarkeit von KI-gestützten Klimamodellen zu verbessern.

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

← Zurück Weiter →