cs.AI Arbeiten | Gist.Science

Stabilizing Reinforcement Learning for Diffusion Language Models

Die Arbeit stellt StableDRL vor, eine für Diffusion-Sprachmodelle optimierte Reformulierung von GRPO, die durch unbedingtes Clipping und Selbstnormalisierung die Instabilität und den Reward-Kollaps bei der Nachtrainierung verhindert.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Die Arbeit stellt DIRECTER vor, eine neue Methode zur Aktivierungssteuerung, die durch dynamische, plausibilitätsgeleitete Anpassung der Steuerungsstärke und eine KV-Cache-Skalierung die Instruktionsbefolgung von Large Language Models verbessert, ohne dabei die Textqualität oder Aufgabenfidelität zu beeinträchtigen.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT überwindet die lineare Speicherskalierung von Mixture-of-Experts-Vision-Transformern für Edge-Geräte, indem es Experten als geometrische Reorientierungen eines gemeinsamen quantisierten Substrats darstellt und so bei 64 Experten eine 354-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust erreicht.

Aryan Karmore2026-03-10💻 cs

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

Die Arbeit stellt ProtAlign vor, ein Multi-Objective-Preference-Alignment-Framework, das vortrainierte Protein-Inverse-Folding-Modelle wie ProteinMPNN durch semi-online Direct Preference Optimization so verfeinert, dass sie gleichzeitig strukturelle Integrität und diverse Entwickelbarkeitseigenschaften wie Löslichkeit und Thermostabilität optimieren.

Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Diese Studie bietet einen umfassenden Überblick über robotische Fundamentmodelle für die industrielle Steuerung, entwickelt einen Bewertungsrahmen mit 149 Kriterien und kommt zu dem Schluss, dass die industrielle Reife derzeit begrenzt ist, da selbst die besten Modelle nur einen Bruchteil der Anforderungen erfüllen und systemische Integration von Sicherheit sowie Echtzeitfähigkeit priorisiert werden muss.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Die Studie stellt XMACNet vor, einen leichten, erklärbaren und multimodal fusionierenden CNN-Ansatz, der auf EffizientNetV2S basiert und RGB-Bilder mit Vegetationsindizes kombiniert, um Chili-Krankheiten mit hoher Genauigkeit zu klassifizieren und für den Einsatz an der Edge zu optimieren.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

Die Arbeit stellt ICD3 vor, einen interpretierbaren Ansatz zur Erkennung von Konzeptdrift in unausgewogenen Datenströmen, der durch eine granulare Suche und einzelne Cluster-Klassifikatoren den „Maskierungseffekt" großer Cluster vermeidet und Drifts in kleinen Konzepten präzise lokalisiert.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Diese Studie stellt ein mehrstufiges Erklärbarkeitsframework vor, das die Robustheit und Konsistenz von SHAP-Erklärungen für Diagnose- und Prognosemodelle der Alzheimer-Krankheit auf dem NACC-Datensatz quantitativ validiert und zeigt, dass kognitive und funktionelle Marker als stabile, übertragbare Erklärungen dienen.

Pablo Guillén, Enrique Frias-Martinez2026-03-10🤖 cs.LG

Gradient-based Nested Co-Design of Aerodynamic Shape and Control for Winged Robots

Die vorgestellte Arbeit entwickelt ein gradientenbasiertes, verschachteltes Co-Design-Framework, das die aerodynamische Form und die Bewegungsplanung von flugfähigen Robotern mittels eines neuronalen Surrogatmodells gemeinsam optimiert, um die Leistung bei komplexen Aufgaben wie dem Perchen und der Landung deutlich zu verbessern.

Daniele Affinita, Mingda Xu, Benoît Valentin Gherardi, Pascal Fua2026-03-10💻 cs

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Diese Arbeit stellt eine diversitätsbewusste, adaptive Auswahl von Kollokationspunkten für Physics-Informed Neural Networks vor, die das Problem als Sparse-QUBO-Optimierung auf einem kNN-Graphen formuliert, um redundante Punkte zu vermeiden und die Genauigkeit bei reduzierten Trainingskosten zu verbessern.

Hadi Salloum, Maximilian Mifsud Bonici, Sinan Ibrahim, Pavel Osinenko, Alexei Kornaev2026-03-10🤖 cs.LG

Failure Detection in Chemical Processes using Symbolic Machine Learning: A Case Study on Ethylene Oxidation

Diese Studie demonstriert, dass symbolisches maschinelles Lernen im Vergleich zu herkömmlichen Black-Box-Modellen wie Random Forest und Multilayer Perceptron nicht nur eine höhere Vorhersagegenauigkeit bei der Fehlererkennung im Prozess der Ethylenoxidation erzielt, sondern auch durch die Generierung interpretierbarer, regelbasierter Modelle entscheidende Vorteile für die Sicherheit und Entscheidungsunterstützung in der chemischen Industrie bietet.

Julien Amblard, Niklas Groll, Matthew Tait, Mark Law, Gürkan Sin, Alessandra Russo2026-03-10🤖 cs.LG

HGT-Scheduler: Deep Reinforcement Learning for the Job Shop Scheduling Problem via Heterogeneous Graph Transformers

Die Arbeit stellt den HGT-Scheduler vor, ein auf Deep Reinforcement Learning basierendes Framework, das das Job-Shop-Scheduling-Problem durch die explizite Modellierung als heterogener Graph mittels Heterogeneous Graph Transformer löst und dadurch durch die Berücksichtigung unterschiedlicher Kantentypen eine überlegene Leistung im Vergleich zu homogenen Ansätzen erzielt.

Bulent Soykan2026-03-10🤖 cs.LG

SpatialMAGIC: A Hybrid Framework Integrating Graph Diffusion and Spatial Attention for Spatial Transcriptomics Imputation

Der Artikel stellt SpatialMAGIC vor, ein hybrides Framework, das Graph-Diffusion und räumliche Aufmerksamkeit kombiniert, um die durch technische Rauschsignale und hohe Sparsität beeinträchtigten Daten der räumlichen Transkriptomik zu vervollständigen und dabei sowohl die Gewebe-Architektur als auch die biologische Interpretierbarkeit zu erhalten.

Sayeem Bin Zaman, Fahim Hafiz, Riasat Azim2026-03-10🤖 cs.LG

xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

Das Paper stellt xaitimesynth vor, ein Open-Source-Python-Paket, das durch die Generierung synthetischer Zeitreihen mit bekannter Ground Truth eine standardisierte Infrastruktur zur Evaluierung von Attribution-Methoden für Zeitreihen bereitstellt.

Gregor Baer2026-03-10🤖 cs.LG

Physics-Informed Diffusion Model for Generating Synthetic Extreme Rare Weather Events Data

Dieser Beitrag stellt ein physikbasiertes Diffusionsmodell vor, das mittels der Context-UNet-Architektur und atmosphärischer Konditionierung synthetische, physikalisch konsistente Satellitenbilder extremer Wetterereignisse generiert, um das Problem des Datenmangels bei seltenen tropischen Wirbelstürmen zu lösen und maschinelles Lernen für deren Erkennung zu verbessern.

Marawan Yakout, Tannistha Maiti, Monira Majhabeen, Tarry Singh2026-03-10🤖 cs.LG

Optimistic Policy Regularization

Die Arbeit stellt die Optimistic Policy Regularization (OPR) vor, einen leichten Mechanismus, der durch die Speicherung und gezielte Nachahmung historisch erfolgreicher Trajektorien das vorzeitige Konvergieren von Deep-Reinforcement-Learning-Agenten verhindert und so sowohl die Sample-Effizienz als auch die Endleistung auf Atari-Spielen und im Cyber-Defense-Bereich signifikant verbessert.

Mai Pham, Vikrant Vaze, Peter Chin2026-03-10🤖 cs.LG

Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment

Die Arbeit stellt „Best-of-Tails" (BoT) vor, ein adaptives Inferenzzeit-Alignierungs-Framework, das durch die Analyse der Reward-Verteilung mit dem Hill-Schätzer und die Verwendung von Tsallis-Divergenz als regulärisierendem Faktor dynamisch zwischen optimistischen und pessimistischen Strategien wechselt, um das Dilemma zwischen Belohnungshacking und notwendiger Exploration zu lösen.

Hsiang Hsu, Eric Lei, Chun-Fu Chen2026-03-10🤖 cs.LG

Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy

Die Arbeit stellt AceMAD vor, ein Multi-Agenten-Debatte-Framework, das durch die Nutzung asymmetrischer kognitiver Potenzialenergie den sogenannten Martingale-Fluch überwindet und so selbst bei fehlerhaften Mehrheitsmeinungen eine zuverlässige Konvergenz zur Wahrheit ermöglicht.

Yuhan Liu, Juntian Zhang, Yichen Wu, Martin Takac, Salem Lahlou, Xiuying Chen, Nils Lukas2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Diese Studie stellt ein hybrides Machine-Learning-Modell vor, das durch die Kombination von drei CNN-Architekturen (VGG19, Efficient-Net, ResNet50) und einem Bi-LSTM-Klassifikator eine Genauigkeit von 98,83 % bei der Früherkennung von Zerebralparese mittels MRT-Bildern erreicht.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Making AI Evaluation Deployment Relevant Through Context Specification

Das Papier stellt die „Kontextspezifikation" als einen Prozess vor, der diffuse Stakeholder-Perspektiven in klare, messbare Konstrukte übersetzt, um die Bewertung von KI-Systemen an die operativen Realitäten ihrer Einsatzumgebungen anzupassen und so fundierte Entscheidungen über ihren dauerhaften Mehrwert zu ermöglichen.

Matthew Holmes, Thiago Lacerda, Reva Schwartz2026-03-10💻 cs

← Zurück Weiter →

cs.AI