cs.LG Arbeiten | Gist.Science

Diffusion Policy through Conditional Proximal Policy Optimization

Die Arbeit stellt eine effiziente Methode vor, die Diffusionsrichtlinien durch die Ausrichtung der Policy-Iteration auf den Diffusionsprozess in ein on-policy Reinforcement-Learning-Framework integriert, wodurch die Berechnung der Log-Likelihood vereinfacht und die Leistung in verschiedenen Robotik- und Simulationsumgebungen verbessert wird.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Diese Arbeit stellt die Diffusion Contrastive Reconstruction (DCR) vor, eine Methode, die kontrastive Signale aus rekonstruierten Bildern in den Diffusionsprozess integriert, um die diskriminative und detailperzeptive Fähigkeit von CLIP-Visual-Encodern zu verbessern und so eine ausgewogenere visuelle Repräsentation für nachgelagerte Aufgaben zu erreichen.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Diese Arbeit zeigt, dass die durch Lokalität und Gewichts-Sharing bedingte Architektur-induktive Verzerrung von Faltungsnetzwerken die implizite Regularisierung so verändert, dass diese im Gegensatz zu vollvernetzten Netzen eine erfolgreiche Generalisierung auf hochdimensionalen sphärischen Daten ermöglichen.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Dieser Beitrag stellt eine Lösung für die DL Sprint 4.0 vor, die durch eine wortgrenzenbewusste, WhisperX-angereicherte Pipeline mit feinabgestimmten Modellen die Genauigkeit der bengalischen Langzeit-Spracherkennung und Sprecherdiarisierung in Szenarien mit überlappenden Stimmen signifikant verbessert.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Diese Arbeit zeigt, wie quadratische Polaritäten und daraus abgeleitete divergenzen die Legendre-Fenchel-Transformation verallgemeinern, und bietet durch die Darstellung mittels homogener Koordinaten und Matrizen ein neues Verständnis der Referenzdualität in der Informationstheorie.

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama2026-03-06💻 cs

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Diese Arbeit untersucht die Generalisierungsfähigkeiten multimodaler Grundmodelle für offene Korrekturhilfen in synthetischen Umgebungen und zeigt, dass leistungsstarke Modelle Datensätze benötigen, die multimodale Verankerung, Fehlerinferenz und diverse Szenarien abdecken.

Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath + 3 more2026-03-06🤖 cs.AI

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Die Autoren stellen einen neuartigen Framework namens CAD vor, der durch intra- und interklassische Regulierungen die Verstrickung von Instanzen in instanzabhängigem Partial-Label-Learning effektiv reduziert und so die Klassentrennung sowie die Gesamtleistung verbessert.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Multilevel Training for Kolmogorov Arnold Networks

Diese Arbeit stellt einen multilevel-basierten Trainingsansatz für Kolmogorov-Arnold-Netzwerke vor, der deren strukturelle Vorteile durch eine Äquivalenz zu MLPs mit Power-ReLU-Aktivierungen nutzt und so insbesondere bei physik-informierten neuronalen Netzen eine drastische Beschleunigung und Genauigkeitssteigerung ermöglicht.

Ben S. Southworth, Jonas A. Actor, Graham Harper + 1 more2026-03-06🔢 math

Missingness Bias Calibration in Feature Attribution Explanations

Die Arbeit stellt mit MCal eine leichte Nachbearbeitungsmethode vor, die durch Feinabstimmung eines linearen Kopfes auf einem eingefrorenen Basismodell den durch Missingness Bias verursachten Verzerrungen in Feature-Attribution-Erklärungen effektiv entgegenwirkt und dabei schwerwiegende Neu-Trainingsansätze in verschiedenen medizinischen Domänen übertreffen kann.

Shailesh Sridhar, Anton Xue, Eric Wong2026-03-06🤖 cs.LG

Why Is RLHF Alignment Shallow? A Gradient Analysis

Diese Arbeit beweist durch eine Gradientenanalyse, dass herkömmliche RLHF-Sicherheitsausrichtungen aufgrund des Verschwindens von Gradienten nach dem Zeitpunkt der Schadensentscheidung inhärent oberflächlich bleiben, und schlägt ein neues Ziel mit Wiederherstellungsstrafen vor, um eine durchgängige Signalgebung über den gesamten Text zu ermöglichen.

Robin Young2026-03-06🤖 cs.LG

Osmosis Distillation: Model Hijacking with the Fewest Samples

Die Arbeit stellt den „Osmosis Distillation"-Angriff vor, eine neuartige Methode zum Hijacking von Deep-Learning-Modellen im Transfer Learning mit synthetischen Datensätzen, die es Angreifern ermöglicht, mit nur wenigen vergifteten Proben versteckte Aufgaben erfolgreich zu übernehmen, ohne die Leistung auf den ursprünglichen Aufgaben zu beeinträchtigen.

Yuchen Shi, Huajie Chen, Heng Xu, Zhiquan Liu, Jialiang Shen, Chi Liu, Shuai Zhou, Tianqing Zhu, Wanlei Zhou2026-03-06🔒 cs.CR

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Das Paper stellt ReCouPLe vor, ein leichtgewichtiges Framework, das natürliche Sprachbegründungen nutzt, um kausal robuste Belohnungsfunktionen zu lernen, die sich auf die eigentlichen Nutzerabsichten stützen und dadurch bei Verteilungsverschiebungen sowie in neuen Aufgaben eine deutlich bessere Generalisierungsfähigkeit als herkömmliche Methoden aufweisen.

Minjune Hwang, Yigit Korkmaz, Daniel Seita + 1 more2026-03-06🤖 cs.AI

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Diese Studie demonstriert, dass allein durch die Analyse von 3D-Kinematikdaten aus Fernsehbildern eine Vorhersagegenauigkeit von 80,4 % für acht verschiedene Baseball-Würfe erreicht werden kann, wobei die Oberkörpermechanik den größten Beitrag leistet und grip-basierte Varianten wie Four-Seam und Two-Seam Fastballs kinematisch nicht unterscheidbar sind.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Differential Privacy in Two-Layer Networks: How DP-SGD Harms Fairness and Robustness

Diese Arbeit analysiert, wie der für den Datenschutz notwendige Rauschanteil beim DP-SGD-Training in zweischichtigen neuronalen Netzen das Erlernen von Merkmalen beeinträchtigt, was zu einer Verschlechterung der Fairness, der Robustheit gegenüber Adversarial-Angriffen und der allgemeinen Leistung führt, insbesondere bei unausgewogenen Datenverteilungen oder bei der Verwendung von Public-Pre-Training.

Ruichen Xu, Kexin Chen2026-03-06🤖 cs.LG

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Das Paper stellt FedAFD vor, ein einheitliches Framework für multimodales Federated Learning, das durch eine bi-level adversarielle Ausrichtungsstrategie, einen granularitätsbewussten Fusionsmodul und eine similarity-gesteuerte Ensemble-Destillation die Herausforderungen heterogener Datenmodalitäten, Aufgabenunterschiede und Modellheterogenität adressiert, um sowohl auf Client- als auch auf Serverseite eine überlegene Leistung und Privatsphäre zu gewährleisten.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Diese Arbeit zeigt, dass bei hochdimensionalen Zufallsdaten der Gradientenabstieg für flache ReLU-Netzwerke mit hoher Wahrscheinlichkeit eine implizite Verzerrung zugunsten der Minimum-L2-Norm-Lösung aufweist, wobei die Abweichung von der exakten Lösung in der Größenordnung von $\Theta(\sqrt{n/d})$ liegt.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

U-Parking: Distributed UWB-Assisted Autonomous Parking System with Robust Localization and Intelligent Planning

Diese Arbeit stellt U-Parking vor, ein verteiltes autonomes Parksystem, das durch die Integration von UWB-basierter Lokalisierung, Trajektorienverfolgung und einer KI-gestützten Planung zuverlässiges Parken in komplexen Innenräumen ermöglicht.

Yiang Wu, Qiong Wu, Pingyi Fan + 4 more2026-03-06🤖 cs.LG

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Das Paper stellt VPWEM vor, eine nicht-Markowsche visuomotorische Strategie, die durch die Kombination eines gleitenden Fensters als Arbeitsgedächtnis und eines Transformer-basierten Kompressors für episodische Erinnerungen robotischen Systemen ermöglicht, langfristige Abhängigkeiten in nicht-Markowschen Aufgaben effizient zu bewältigen und dabei den Speicherbedarf konstant zu halten.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

Die Arbeit stellt EVMbench vor, einen Evaluierungsrahmen, der die Fähigkeit fortschrittlicher KI-Agenten misst, Schwachstellen in Smart Contracts zu erkennen, zu beheben und auszunutzen, wobei festgestellt wird, dass diese Agenten in der Lage sind, Angriffe auf live Blockchain-Instanzen erfolgreich durchzuführen.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Die Arbeit stellt BandPO vor, einen neuen Algorithmus für das Reinforcement Learning von Sprachmodellen, der durch die Einführung eines dynamischen, wahrscheinlichkeitsbewussten „Band"-Operators das Problem der Entropie-Kollaps bei herkömmlichen PPO-Clipping-Methoden löst und so eine stabilere und effizientere Optimierung ermöglicht.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

← Zurück Weiter →