cs.LG Arbeiten | Gist.Science

Structural Inference: Interpreting Small Language Models with Susceptibilities

Die Autoren entwickeln ein lineares Antwortframework, das neuronale Netze als bayessche statistisch-mechanische Systeme behandelt, um durch lokale Störungen der Datenverteilung effizient berechenbare Suszeptibilitäten zu ermitteln, die als Attributionswerte dienen und funktionale Module in kleinen Transformern aufdecken.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Die Arbeit stellt HetGL2R vor, einen heterogenen Graph-Lernrahmen, der durch die Integration von Origin-Destination-Flüssen und Routeninformationen in einem Tripartiten-Graphen sowie die Nutzung von Attribut-führten Graphen und Transformer-Encodern die Bedeutung von Straßenabschnitten präziser rankt als bestehende Methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Die Arbeit stellt StablePCA vor, einen verteilungsrobusten Rahmen zur Extraktion stabiler latenter Darstellungen aus multi-sourcigen Daten durch Maximierung der worst-case erklärten Varianz, der mittels konvexer Relaxierung und eines effizienten Mirror-Prox-Algorithmus mit globalen Konvergenzgarantien gelöst wird.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dieses Papier stellt einen individualisierten Offline-Verstärkungslernrahmen für heterogene Zeit-stationäre MDPs vor, der mithilfe eines Modells mit individuellen latenten Variablen und des P4L-Algorithmus suboptimale Polices für heterogene Populationen vermeidet und eine schnelle Regret-Konvergenz unter schwachen Annahmen garantiert.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Die Studie „Distilled Circuits" nutzt mechanistische Interpretierbarkeit, um zu zeigen, dass Wissensdistillation bei Modellen wie DistilGPT2 nicht nur die Ausgabe, sondern auch die internen Berechnungsstrukturen durch Reorganisation und Kompression von Komponenten grundlegend verändert, was weitreichende Folgen für Robustheit und Generalisierung hat.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Die Arbeit stellt Ready2Unlearn vor, einen proaktiven Lernzeit-Ansatz, der Modelle mittels Meta-Learning-Prinzipien so trainiert, dass sie zukünftige Löschungsanforderungen effizienter und prinzipienorientierter erfüllen können, anstatt sich ausschließlich auf reaktive Nachbearbeitung zu verlassen.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Die Arbeit stellt zwei neue Online-Algorithmen für das Entscheidungsorientierte Lernen in dynamischen Umgebungen vor, die durch Regularisierung und Perturbations-Techniken differenzierbare, nicht-konvexe Probleme lösen und erstmals statische sowie dynamische Regret-Schranken garantieren.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Die Arbeit stellt Vid2World vor, einen allgemeinen Ansatz, der vortrainierte Videodiffusionsmodelle durch systematische Kausalität, Architekturänderungen und eine kausale Aktionssteuerung in interaktive Weltmodelle umwandelt, um hochwertige Vorhersagen für komplexe Entscheidungsprozesse zu ermöglichen.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Das Paper stellt WikiDBGraph vor, eine umfassende Benchmark-Suite aus 100.000 realen relationalen Datenbanken, die die Lücke zwischen theoretischen kollaborativen Lernansätzen und der praktischen Bewältigung unstrukturierter, fragmentierter Datensilos durch die Einbeziehung des gesamten Datenmanagement-Workflows aufzeigt.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Dieses Paper stellt AgarCL vor, eine auf dem Spiel Agar.io basierende Forschungsplattform für kontinuierliches Reinforcement Learning, die eine nicht-episodische, hochdimensionale Umgebung mit stochastischen Dynamiken bietet und zeigt, dass herkömmliche Methoden sowie spezielle kontinuierliche Lernansätze dort nur begrenzte Verbesserungen erzielen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

Die Studie stellt X-MethaneWet vor, den ersten globalen Benchmark-Datensatz für Feuchtgebiet-Methanemissionen, der physikalische Simulationen mit Felddaten kombiniert, um durch den Einsatz von Deep-Learning-Modellen und Transfer-Learning-Techniken die Genauigkeit und Skalierbarkeit von KI-gestützten Klimamodellen zu verbessern.

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

Diese Arbeit entwickelt ein theoretisches Rahmenwerk für die optimale Steuerung von Wahrscheinlichkeitsdichten auf Maßräumen, das ein Maximum-Prinzip und die Hamilton-Jacobi-Bellman-Gleichung für unendlichdimensionale Verteilungsräume bereitstellt und durch einen skalierbaren Algorithmus mit tiefen neuronalen Netzen zur Lösung von Großraum-Multi-Agenten-Problemen ergänzt wird.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

Die Arbeit stellt VISTA vor, ein trainingsfreies Framework, das multimodale Vision-Language-Modelle nutzt, um durch die Kombination von Text und Diagrammen historische Aktienkurse zu analysieren und zukünftige Werte präziser vorherzusagen als herkömmliche unimodale Ansätze.

Tina Khezresmaeilzadeh, Parsa Razmara, Seyedarmin Azizi, Mohammad Erfan Sadeghi, Erfan Baghaei Potraghloo2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Diese Arbeit stellt eine neue Methode vor, die durch das Einfügen von instruction-hierarchie-Signalen in die Zwischendarstellungen von Sprachmodellen die Anfälligkeit für Prompt-Injection-Angriffe im Vergleich zu bestehenden Ansätzen um das 1,6- bis 9,2-fache reduziert, ohne die Nützlichkeit des Modells signifikant zu beeinträchtigen.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

Die vorgestellte Arbeit führt OCN (Orthogonal Common Neighbor) ein, eine neue Methode zur Link-Vorhersage, die durch Orthogonalisierung und Normalisierung Redundanz und Over-Smoothing bei höherordentlichen gemeinsamen Nachbarn adressiert und dadurch die Leistung bestehender Ansätze signifikant verbessert.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

← Zurück Weiter →