cs.LG Arbeiten | Gist.Science

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Die Arbeit stellt OrthoGrad vor, eine neue Methode zum maschinellen Vergessen, die durch die Projektion der Gradienten der zu entfernenden Daten auf den orthogonalen Unterraum der verbleibenden Trainingsdaten Interferenzen vermeidet und so auch bei nur begrenztem Zugriff auf den ursprünglichen Datensatz effektiv funktioniert.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Diese Studie stellt GlucoLens vor, ein erklärbares KI-System, das mithilfe von Wearable-Daten, Ernährungsinformationen und großen Sprachmodellen postprandiale Hyperglykämie bei Erwachsenen präzise vorhersagt und personalisierte Verhaltensinterventionen zur Vermeidung von Blutzuckerspitzen ableitet.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Die Arbeit stellt „Smooth Prototype Equivalences" (SPE) vor, ein Framework, das mithilfe invertierbarer neuronaler Netze spärliche und verrauschte Messdaten auf prototypische dynamische Verhaltensmuster abbildet, um invariante Strukturen wie Grenzzyklen zu identifizieren und dynamische Regime ohne Kenntnis der zugrunde liegenden Gleichungen zu klassifizieren.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Die Arbeit stellt MUSS vor, eine neuartige multilevel-Methode zur effizienten und skalierbaren Auswahl relevanter sowie diverser Teilmengen, die in Anwendungen wie Empfehlungssystemen und RAG sowohl die Genauigkeit als auch die Geschwindigkeit im Vergleich zu bestehenden Ansätzen wie MMR und DGDS signifikant verbessert und theoretisch fundierte Approximationsgarantien bietet.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Diese Studie verbessert die Vorhersage des metabolischen Syndroms durch einen neuartigen hybriden Rahmen (MetaBoost) zur Optimierung des Datenbalancings und durch eine kontrafaktische Analyse, die Blutzucker und Triglyceride als entscheidende klinische Risikofaktoren identifiziert.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Die Studie zeigt, dass die Kombination von Large Language Models zur Extraktion linguistischer und kognitiver Merkmale mit baumbasierten maschinellen Lernalgorithmen eine genauere Schätzung der Aufgabenschwierigkeit für K-5-Mathematik- und Lesetests ermöglicht als direkte LLM-Schätzungen und somit den Bedarf an aufwendigen Vorabtests reduziert.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Diese Arbeit stellt einen visionbasierten Reinforcement-Learning-Agenten vor, der ausschließlich auf egozentrischen Kamerabildern und Onboard-Sensordaten basiert und in Gran Turismo 7 erstmals champion-level Leistung in wettbewerbsfähigen Rennszenarien erzielt, ohne auf externe Lokalisierung angewiesen zu sein.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Die Autoren entwickeln ein lineares Antwortframework, das neuronale Netze als bayessche statistisch-mechanische Systeme behandelt, um durch lokale Störungen der Datenverteilung effizient berechenbare Suszeptibilitäten zu ermitteln, die als Attributionswerte dienen und funktionale Module in kleinen Transformern aufdecken.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Die Arbeit stellt HetGL2R vor, einen heterogenen Graph-Lernrahmen, der durch die Integration von Origin-Destination-Flüssen und Routeninformationen in einem Tripartiten-Graphen sowie die Nutzung von Attribut-führten Graphen und Transformer-Encodern die Bedeutung von Straßenabschnitten präziser rankt als bestehende Methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Die Arbeit stellt StablePCA vor, einen verteilungsrobusten Rahmen zur Extraktion stabiler latenter Darstellungen aus multi-sourcigen Daten durch Maximierung der worst-case erklärten Varianz, der mittels konvexer Relaxierung und eines effizienten Mirror-Prox-Algorithmus mit globalen Konvergenzgarantien gelöst wird.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dieses Papier stellt einen individualisierten Offline-Verstärkungslernrahmen für heterogene Zeit-stationäre MDPs vor, der mithilfe eines Modells mit individuellen latenten Variablen und des P4L-Algorithmus suboptimale Polices für heterogene Populationen vermeidet und eine schnelle Regret-Konvergenz unter schwachen Annahmen garantiert.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Die Studie „Distilled Circuits" nutzt mechanistische Interpretierbarkeit, um zu zeigen, dass Wissensdistillation bei Modellen wie DistilGPT2 nicht nur die Ausgabe, sondern auch die internen Berechnungsstrukturen durch Reorganisation und Kompression von Komponenten grundlegend verändert, was weitreichende Folgen für Robustheit und Generalisierung hat.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Die Arbeit stellt Ready2Unlearn vor, einen proaktiven Lernzeit-Ansatz, der Modelle mittels Meta-Learning-Prinzipien so trainiert, dass sie zukünftige Löschungsanforderungen effizienter und prinzipienorientierter erfüllen können, anstatt sich ausschließlich auf reaktive Nachbearbeitung zu verlassen.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Der Artikel stellt FreeKV vor, ein trainingsfreies Framework zur Algorithmen-System-Optimierung, das durch spekulative Abrufverfahren und hybride Speicherkonzepte die Effizienz des KV-Cache-Retrieval für LLMs erheblich steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Die Arbeit stellt zwei neue Online-Algorithmen für das Entscheidungsorientierte Lernen in dynamischen Umgebungen vor, die durch Regularisierung und Perturbations-Techniken differenzierbare, nicht-konvexe Probleme lösen und erstmals statische sowie dynamische Regret-Schranken garantieren.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

← Zurück Weiter →