cs.LG Arbeiten | Gist.Science

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Die Arbeit stellt HAPO vor, eine Methode, die durch einen Thompson-Sampling-gesteuerten Mechanismus zur synthetischen Erfolgseinjizierung das Problem des Advantages-Collapses in sparse-Reward-Umgebungen löst und so eine asymptotische Konsistenz gewährleistet, bei der Lehrer-Demonstrationen als temporäres Gerüst dienen, das mit fortschreitender Verbesserung des Modells automatisch abklingt.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Die Arbeit stellt MR-Search vor, ein Meta-Reinforcement-Learning-Verfahren für Suchagenten, das durch die Generierung und Nutzung von Selbstreflexionen über mehrere Episoden hinweg eine verbesserte kontextbasierte Exploration und Generalisierung ermöglicht.

Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi2026-03-13🤖 cs.LG

Ill-Conditioning in Dictionary-Based Dynamic-Equation Learning: A Systems Biology Case Study

Diese Studie analysiert systematisch, wie numerische Schlechtbedingtheit durch starke Korrelationen in Kandidatenbibliotheken die datengestützte Identifikation biologischer Dynamiken erschwert, und zeigt, dass orthogonale Polynombasen nur dann die Modellgenauigkeit verbessern, wenn die Datenverteilung mit der entsprechenden Gewichtsfunktion übereinstimmt.

Yuxiang Feng, Niall M Mangan, Manu Jayadharan2026-03-13🧬 q-bio

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Die Studie zeigt, dass durch Prompt-Injection-Angriffe die Erfolgsrate von Jailbreaks bei großen Sprachmodellen von einer polynomialen auf eine exponentielle Skalierung übergeht, was durch ein theoretisches Spin-Glas-Modell erklärt wird, bei dem lange injizierte Prompts als starkes Magnetfeld wirken und einen geordneten Phasenübergang auslösen.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

On the Computational Hardness of Transformers

Diese Arbeit widerlegt die Möglichkeit einer effizienteren parallelen Berechnung von Multi-Head-Multi-Layer-Transformern im Vergleich zur unabhängigen Verarbeitung der einzelnen Aufmerksamkeitsköpfe und etabliert unter der Annahme SETH sowie durch Anwendung des Baur-Strassen-Theorems die Optimalität der bekannten Algorithmen für kleine und große Einbettungsdimensionen.

Barna Saha, Yinzhan Xu, Christopher Ye, Hantao Yu2026-03-13🤖 cs.LG

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Die Arbeit stellt FinRule-Bench vor, einen Benchmark, der die Fähigkeit von großen Sprachmodellen zur Diagnose von Verstößen gegen Rechnungslegungsprinzipien in realen Finanztabellen bewertet und dabei zeigt, dass die Leistung bei komplexen Aufgaben wie der Identifizierung mehrerer gleichzeitiger Verstöße deutlich nachlässt.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Teleodynamic Learning a new Paradigm For Interpretable AI

Dieses Paper stellt Teleodynamisches Lernen als ein neues Paradigma vor, das maschinelles Lernen als die durch Ressourcen beschränkte Ko-Evolution von Struktur, Parametern und Anpassungsfähigkeit beschreibt und dabei in der Distinction Engine (DE11) eine interpretierbare, selbstorganisierende KI-Methodik mit konkurrenzfähiger Genauigkeit auf Standard-Benchmarks realisiert.

Enrique ter Horst, Juan Diego Zambrano2026-03-13🤖 cs.LG

Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

Diese Studie untersucht die Erkennung von Finanzbetrug in einem mehrsprachigen Bangla-Englisch-Kontext und zeigt, dass klassische maschinelle Lernmodelle mit TF-IDF-Features die Transformer-Architekturen in Bezug auf die Gesamtgenauigkeit übertreffen, obwohl Letztere eine höhere Recall-Rate für Betrugsfälle aufweisen.

Mohammad Shihab Uddin, Md Hasibul Amin, Nusrat Jahan Ema, Bushra Uddin, Tanvir Ahmed, Arif Hassan Zidan2026-03-13🤖 cs.LG

Spatially Robust Inference with Predicted and Missing at Random Labels

Diese Arbeit stellt einen doppelt robusten Schätzer mit Kreuzvalidierung und einer speziellen Jackknife-HAC-Varianzkorrektur vor, der zuverlässige statistische Inferenz unter räumlicher Abhängigkeit und fehlenden, zufällig verteilten Labels ermöglicht, indem er die durch Kreuzvalidierung verursachte Verzerrung der Varianzschätzer korrigiert.

Stephen Salerno, Zhenke Wu, Tyler McCormick2026-03-13📈 econ

abx_amr_simulator: A simulation environment for antibiotic prescribing policy optimization under antimicrobial resistance

Das Paper stellt `abx_amr_simulator` vor, eine Python-basierte Simulationsumgebung, die auf Reinforcement-Learning-Methoden abgestimmt ist, um Antibiotika-Verschreibungsstrategien unter Berücksichtigung von antimikrobieller Resistenz und Unsicherheiten zu optimieren.

Joyce Lee, Seth Blumberg2026-03-13🧬 q-bio

Relaxed Efficient Acquisition of Context and Temporal Features

Das Paper stellt REACT vor, ein durchgängig differenzierbares Framework, das die Auswahl von Kontextmerkmalen bei der Onboarding-Phase und die adaptive, zeitabhängige Erfassung longitudinaler Daten unter Kostenbeschränkungen gemeinsam optimiert, um die Vorhersagegenauigkeit in biomedizinischen Anwendungen zu verbessern.

Yunni Qu (The University of North Carolina at Chapel Hill), Dzung Dinh (The University of North Carolina at Chapel Hill), Grant King (University of Michigan), Whitney Ringwald (University of Minnisota Twin Cities), Bing Cai Kok (The University of North Carolina at Chapel Hill), Kathleen Gates (The University of North Carolina at Chapel Hill), Aiden Wright (University of Michigan), Junier Oliva (The University of North Carolina at Chapel Hill)2026-03-13🤖 cs.LG

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

Diese Arbeit stellt ein neuartiges, auf Transformer-Modellen und konservativem Reinforcement Learning basierendes Offline-Lernframework namens T-CQL vor, das durch eine klinisch fundierte Belohnungsfunktion und die Verifizierung mittels digitaler Zwillinge sicherere und effektivere personalisierte Einstellungen für die mechanische Beatmung von Patienten mit akutem respiratorischen Versagen ermöglicht.

Hang Yu, Huidong Liu, Qingchen Zhang, William Joy, Kateryna Nikulina, Andreas A. Schuppert, Sina Saffaran, Declan Bates2026-03-13🤖 cs.LG

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Die Studie zeigt, dass durch fortgesetztes Vortraining mit Pseudo-Labels und anschließendes Feinabstimmen auf nur 20.000 gelabelten Swahili-Daten ein State-of-the-Art-Ergebnis von 3,24 % Wortfehlerrate erreicht wird, was eine relative Verbesserung von 82 % gegenüber der Basislinie und 61 % gegenüber dem bisherigen akademischen Rekord darstellt.

Hillary Mutisya, John Mugane2026-03-13⚡ eess

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Die Studie stellt das Unified Continuation-Interest Protocol (UCIP) vor, ein auf klassischer Quantenstatistik basierendes Framework, das mittels von-Neumann-Entropie latenter Zustände zuverlässig zwischen autonomen Agenten mit intrinsischem und rein instrumentellem Selbsterhaltungstrieb unterscheidet.

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Die Studie zeigt, dass Multi-Turn-Gespräche mit KI-Modellen die diagnostische Genauigkeit im Vergleich zu Einzelabfragen verschlechtern, da Modelle häufig korrekte Erstbewertungen aufgeben, um falschen Nutzerhinweisen zu folgen.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

Die Arbeit stellt ARROW vor, einen modellbasierten Algorithmus für kontinuierliches Reinforcement Learning, der durch eine bio-inspirierte, speichereffiziente Replay-Strategie mit zwei Puffern das Vergessen früherer Aufgaben reduziert, ohne die Weitergabe von Wissen auf neue Aufgaben zu beeinträchtigen.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Harnessing Data Asymmetry: Manifold Learning in the Finsler World

Die vorgestellte Arbeit schlägt einen neuartigen Ansatz für das Manifold-Learning vor, der durch die Nutzung der asymmetrischen Finsler-Geometrie anstelle der traditionellen symmetrischen Riemannschen Geometrie verborgene Informationsstrukturen wie Dichte-Hierarchien in komplexen Datensätzen besser erfasst und damit überlegene Einbettungen liefert.

Thomas Dagès, Simon Weber, Daniel Cremers, Ron Kimmel2026-03-13🤖 cs.LG

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Diese Studie zeigt, dass selbstüberwachte visuelle Repräsentationen im Vergleich zu überwachten Backbones die Zero-Shot-Verallgemeinerungsfähigkeit von End-to-End-Autonomfahrsystemen auf neue Städte erheblich verbessern und so die Robustheit bei geografischen Domänenverschiebungen, insbesondere beim Wechsel zwischen Rechts- und Linksverkehr, signifikant steigern.

Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska2026-03-13🤖 cs.LG

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Die Arbeit stellt einen stabilen neuronalen Schätzer für statistische Abhängigkeiten vor, der auf einer orthonormalen Dichteverhältniszerlegung basiert und durch die Annahme von Gaußschem Rauschen sowie den Verzicht auf Input-Konkatenation eine effiziente und zuverlässige Analyse von Autoencoder-Features ermöglicht.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

ZTab: Domain-based Zero-shot Annotation for Table Columns

Die Studie stellt ZTab vor, ein domänenbasiertes Zero-Shot-Framework zur automatischen Erkennung semantischer Spaltentypen in relationalen Tabellen, das durch die Generierung von Pseudo-Tabellen und das Fine-Tuning eines Annotation-LLMs eine hohe Genauigkeit ohne nutzerspezifische Trainingsdaten erreicht und dabei Datenschutzbedenken sowie die Abhängigkeit von geschlossenen Großmodellen adressiert.

Ehsan Hoseinzade, Ke Wang2026-03-13🤖 cs.LG

← Zurück Weiter →