Efficient Agent Training for Computer Use

Das Paper stellt PC Agent-E vor, ein effizientes Trainingsframework, das durch die Kombination von nur 312 menschlichen Demonstrationsdaten mit synthetisierten Alternativen mittels Claude 3.7 Sonnet die Leistung von Computer-Nutzungs-Agenten signifikant steigert und dabei sowohl reine Menschendaten als auch direkte Distillation von Claude 3.7 Sonnet auf dem neuen Benchmark WindowsAgentArena-V2 übertrifft.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

NatADiff: Adversarial Boundary Guidance for Natural Adversarial Diffusion

Die Arbeit stellt NatADiff vor, eine Methode zur Erzeugung natürlicher adversarieller Beispiele mittels Diffusionsmodellen und adversarialer Grenzführung, die durch das gezielte Ausnutzen struktureller Gemeinsamkeiten zwischen Klassen sowohl die Übertragbarkeit von Angriffen verbessert als auch eine höhere Übereinstimmung mit realen Testzeitfehlern erreicht.

Max Collins, Jordan Vice, Tim French + 1 more2026-03-04🤖 cs.LG

Optimizing Data Augmentation through Bayesian Model Selection

Diese Arbeit stellt ein neuartiges Framework vor, das Daten-Augmentations-Parameter als Modellhyperparameter behandelt und durch die Optimierung der marginalen Likelihood mittels eines abgeleiteten ELBO eine robuste, bayesianisch fundierte Auswahl von Augmentierungsstrategien ermöglicht, die sich in verbesserten Generalisierungs- und Kalibrierungsergebnissen auf Computer-Vision- und NLP-Aufgaben zeigt.

Madi Matymov, Ba-Hien Tran, Michael Kampffmeyer + 2 more2026-03-04📊 stat

Weight-Space Linear Recurrent Neural Networks

Die Arbeit stellt WARP vor, ein neuartiges Modell, das das Lernen im Gewichtsraum mit linearer Rekurrenz vereint, indem es den verborgenen Zustand als Parameter eines Hilfsnetzwerks parametrisiert, was effiziente testzeitliche Anpassung, In-Context-Learning und die Integration physikalischer Priors ermöglicht und dabei auf vielfältigen Aufgaben den Stand der Technik erreicht oder übertrifft.

Roussel Desmond Nzoyem, Nawid Keshtmand, Enrique Crespo Fernandez + 4 more2026-03-04🤖 cs.LG

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Das Paper stellt Perception-R1 vor, eine Methode, die durch einen neuartigen visuellen Wahrnehmungsbelohnung im Rahmen des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die multimodale Wahrnehmung und Schlussfolgerungsfähigkeit von Large Multimodal Models (MLLMs) verbessert und dabei mit nur 1.442 Trainingsdaten state-of-the-art Ergebnisse auf mehreren Benchmarks erzielt.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

Tailored Behavior-Change Messaging for Physical Activity: Integrating Contextual Bandits and Large Language Models

Diese Studie stellt einen hybriden Ansatz vor, der kontextuelle Banditen zur Auswahl von Interventionsarten mit großen Sprachmodellen zur personalisierten Inhaltsgenerierung kombiniert, um in einer 30-tägigen physischen Aktivitätsintervention die Akzeptanz zu erhöhen, den Token-Verbrauch zu senken und eine nachvollziehbare, adaptive Entscheidungsfindung zu ermöglichen.

Haochen Song, Dominik Hofer, Rania Islambouli + 6 more2026-03-04📊 stat

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

StreamSplat ist ein vollständig feed-forward Framework, das unkalibrierte Videostreams beliebiger Länge online und in Echtzeit in dynamische 3D-Gaussian-Splatting-Repräsentationen umwandelt und dabei durch probabilistische Sampling-Mechanismen, ein bidirektionales Deformationsfeld sowie adaptive Fusion eine bisher unerreichte Geschwindigkeit und Rekonstruktionsqualität ohne Optimierungsschritte erreicht.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Die Studie zeigt, dass die Ausrichtung (Alignment) von Large Language Models die Vielfalt der Generierung durch eine signifikante Reduktion des „Branching Factor" – ein Maß für die Anzahl plausibler Folgetokens – drastisch einschränkt, indem sie das Modell in deterministischere Pfade lenkt, was sowohl die geringere Sensitivität gegenüber Dekodierungsstrategien als auch die Stabilität von Chain-of-Thought-Verfahren erklärt.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI