Reverse Distillation: Consistently Scaling Protein Language Model Representations

Die Arbeit stellt Reverse Distillation vor, ein Framework, das Protein-Sprachmodelle durch die Zerlegung ihrer Repräsentationen in orthogonale Unterräume so optimiert, dass größere Modelle konsistent besser abschneiden als kleinere, indem sie die von kleineren Modellen erlernten allgemeinen Merkmale bewahren und zusätzliche Informationen orthogonal hinzufügen.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Die Arbeit stellt FedShift vor, eine neuartige zweistufige „Verstecken und Finden"-Angriffsmethode auf das verteilte Federated Graph Learning, die durch das Einbringen eines versteckten „Shifters" und die nachfolgende gezielte Suche nach Adversarial-Perturbationen eine hohe Angriffseffektivität bei gleichzeitiger Umgehung gängiger Verteidigungsmechanismen und einer drastischen Reduzierung der Rechenzeit erreicht.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Die Arbeit stellt MicroCoder-GRPO vor, einen verbesserten Reinforcement-Learning-Ansatz mit drei Innovationen zur Überwindung von Trainingsengpässen bei Code-Modellen, der in Kombination mit einem neuen Datensatz und einem optimierten Evaluierungsframework signifikante Leistungssteigerungen auf LiveCodeBench v6 erzielt und dabei zeigt, dass sorgfältig trainierte Modelle mit größeren Modellen konkurrieren können.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Die Studie stellt das MicroCoder-Dataset vor, das durch einen systematischen vierstufigen Verarbeitungsprozess und eine KI-gestützte Schwierigkeitsfilterung aus aktuellen Wettbewerbsaufgaben besteht und nachweislich die Leistung von Code-Generierungsmodellen bei komplexen Aufgaben im Vergleich zu herkömmlichen Datensätzen signifikant verbessert.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Der Artikel stellt ProgAgent vor, einen kontinuierlichen Reinforcement-Learning-Agenten, der durch die Kombination von fortschrittsbasierten Belohnungen aus ungelabelten Expertenvideos, einer adversativen Regularisierung zur Vermeidung von Überanpassung und einer hocheffizienten JAX-Architektur das Vergessen verhindert und das robotische Lernen aus wenigen Demonstrationen erheblich verbessert.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

Diese Studie zeigt mittels des effizienten MO-IRL-Algorithmus, dass eine einzige, subjekt- und haltungsunabhängige zeitvariierende Kostenfunktion menschliche Greifbewegungen präziser vorhersagen kann als bisherige, spezifischere Ansätze, wobei die Gelenkbeschleunigungsregulierung als dominierender Optimierungsmechanismus identifiziert wird.

Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Die vorgestellte Arbeit stellt Gradient Iterated Temporal-Difference Learning vor, eine stabile Variante des iterierten TD-Lernens, die durch die Berechnung von Gradienten über bewegte Ziele eine mit semi-gradienten Methoden konkurrierende Lerngeschwindigkeit erreicht und dabei erstmals Gradient-TD-Methoden erfolgreich auf Atari-Spielen demonstriert.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Die vorgestellte Arbeit präsentiert eine robuste, sprachgesteuerte Greifpipeline für mobile Beinmanipulatoren, die durch die Kombination von VLM-basierter Objekterkennung, Punktwolken-Vervollständigung bei Verdeckungen und sicherheitsorientierten Heuristiken eine signifikant höhere Erfolgsrate in unstrukturierten Umgebungen im Vergleich zu herkömmlichen, sichtungsabhängigen Ansätzen erreicht.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG