cs.LG Arbeiten | Gist.Science

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Die Arbeit stellt LoCo-RLHF vor, ein Framework, das durch die Nutzung einer niedrigrangigen Struktur und einer pessimistischen Strategie in einem reduzierten Subraum heterogenes menschliches Feedback effizient modelliert, um Large Language Models besser an individuelle Präferenzen anzupassen und Verteilungsverschiebungen zu bewältigen.

Seong Jin Lee, Will Wei Sun, Yufeng Liu2026-03-05🤖 cs.LG

Difficult Examples Hurt Unsupervised Contrastive Learning: A Theoretical Perspective

Diese Arbeit zeigt theoretisch und empirisch, dass das Entfernen schwieriger Beispiele die Generalisierung und Leistung des unüberwachten kontrastiven Lernens verbessert, da deren Anwesenheit sich negativ auf die Generalisierung auswirkt.

Yi-Ge Zhang, Jingyi Cui, Qiran Li + 1 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Diese Arbeit identifiziert und untersucht „Preference Leakage", ein Kontaminationsproblem bei der Verwendung von LLMs als Richter, das durch die Verwandtschaft zwischen Daten-Generatoren und Bewertungsmodellen entsteht und zu einer systematischen Verzerrung führt, die schwerer zu erkennen ist als bisher bekannte Bias-Phänomene.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Die Autoren stellen MIKASA vor, eine umfassende Benchmark-Suite mit einem neuen Klassifizierungsrahmen und spezifischen Roboteraufgaben, um die Gedächtnisleistungen von Reinforcement-Learning-Agenten in komplexen Szenarien systematisch zu bewerten.

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Die Autoren stellen das UNB StepUP-P150-Dataset vor, eine umfassende Datenbank mit hochauflösenden plantaren Druckdaten von 150 Probanden unter verschiedenen Gehgeschwindigkeiten und Schuhbedingungen, die als neuer Benchmark für die Analyse und biometrische Erkennung des Gangbildes dient.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Die Arbeit stellt Implicit U-KAN 2.0 vor, ein neuartiges, theoretisch fundiertes und interpretierbares medizinisches Bildsegmentierungsnetzwerk, das durch die Integration von MultiKAN-Schichten und zweiten Ordnungs-Neuronalen Gewöhnlichen Differentialgleichungen (SONO) die Leistung und Effizienz bestehender U-Net-Architekturen übertrifft.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Leveraging Taxonomy Similarity for Next Activity Prediction in Patient Treatment

Dieser Artikel stellt den TS4NAP-Ansatz vor, der medizinische Taxonomien (ICD-10-CM und ICD-10-PCS) mit Graph-Matching kombiniert, um die Vorhersage des nächsten Behandlungsschritts bei Patienten zu verbessern und gleichzeitig die Entscheidungsfindung durch erklärbare Ergebnisse zu unterstützen.

Martin Kuhn, Joscha Grüger, Tobias Geyer + 1 more2026-03-05🤖 cs.AI

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Diese Studie analysiert umfassend neun Qualitätsdimensionen von Bildklassifizierungsmodellen, identifiziert Schlüsselfaktoren wie Selbstüberwachtes Lernen und Datensatzgröße für deren Verbesserung und stellt mit dem QUBA-Score eine neue Metrik vor, die Modelle jenseits der reinen Genauigkeit bewertet.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Generating Fine Details of Entity Interactions

Diese Arbeit stellt \data, einen interaktionsfokussierten Datensatz, und \model, ein neues Verfahren zur Verfeinerung von Text-zu-Bild-Generierung durch Zerlegung und MLLM-gestützte Kritik, vor, um die Darstellung komplexer Objektinteraktionen zu verbessern.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Das Paper stellt PinRec vor, ein skalierbares, generatives Retrieval-Modell für Pinterest, das durch outcome-konditionierte und multi-token Generierung die Balance zwischen Geschäftszielen, Vielfalt und Effizienz in industriellen Empfehlungssystemen ermöglicht.

Prabhat Agarwal, Anirudhan Badrinath, Laksh Bhasin + 4 more2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Die Arbeit stellt N2M-RSI vor, ein formales, implementierungsunabhängiges Modell, das zeigt, wie KI-Agenten durch die Rückkopplung ihrer eigenen Ausgaben als Trainingsdaten eine unbeschränkte Komplexität erreichen können, sobald sie einen bestimmten Informationsintegrations-Schwellenwert überschreiten.

Rintaro Ando2026-03-05🤖 cs.AI

Akkumula: Evidence accumulation driver models with Spiking Neural Networks

Das Papier stellt Akkumula vor, ein Framework zur Nachbildung von Fahrerentscheidungen mittels Spiking Neural Networks, das die realistische, skalierbare und transparente Modellierung von Beschleunigungs-, Brems- und Lenkmanövern ermöglicht.

Alberto Morando2026-03-05🤖 cs.LG

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Diese Studie stellt mit PubHealthBench einen neuen Benchmark vor, der über 8000 Fragen zu britischen öffentlichen Gesundheitsinformationen enthält und zeigt, dass zwar fortschrittliche proprietäre LLMs bei Multiple-Choice-Fragen menschliche Leistungen übertreffen, ihre Genauigkeit bei freien Textantworten jedoch weiterhin verbesserungswürdig ist und zusätzliche Sicherheitsvorkehrungen erfordert.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Emotion-Gradient Metacognitive RSI (Part I): Theoretical Foundations and Single-Agent Architecture

Dieser erste Teil des EG-MRSI-Frameworks etabliert die theoretischen Grundlagen und die Single-Agent-Architektur für ein selbstreflexives System, das emotionale intrinsische Motivation mit metakognitiver Selbstmodifikation unter formalen Sicherheitsgrenzen vereint, um offene AGI-Entwicklung voranzutreiben.

Rintaro Ando2026-03-05🤖 cs.AI

Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Die Autoren stellen ein neues unüberwachtes Framework für die invariante Risikominimierung vor, das durch Methoden wie PICA und VIAE robuste Repräsentationen aus ungelabelten Daten extrahiert, indem es Invarianz über die Ausrichtung von Merkmalsverteilungen definiert, anstatt auf Labels angewiesen zu sein.

Yotam Norman, Ron Meir2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time-Series Analysis

Die Arbeit stellt TSPulse vor, eine Familie ultra-leichter, vortrainierter Modelle mit entkoppelten Repräsentationen, die durch ein neuartiges Pre-Training-Framework und hybride Maskierungsstrategien in der Lage sind, auf über 75 Datensätzen in verschiedenen Zeitreihenaufgaben wie Anomalieerkennung und Imputation state-of-the-art Zero-Shot-Leistungen zu erzielen und dabei deutlich größere Modelle zu übertreffen.

Vijay Ekambaram, Subodh Kumar, Arindam Jati + 5 more2026-03-05🤖 cs.AI

Optimal Best-Arm Identification under Fixed Confidence with Multiple Optima

Diese Arbeit leitet eine strengere informationstheoretische untere Schranke für die erwartete Stichprobenkomplexität bei der Identifizierung des besten Arms in stochastischen Multi-Armed-Bandits mit bekannter Anzahl mehrerer optimaler Arme her und zeigt, dass eine modifizierte Version des Track-and-Stop-Algorithmus diese Schranke asymptotisch erreicht.

Lan V. Truong2026-03-05🤖 cs.LG

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Die Arbeit stellt eine extrem einfache und theoretisch fundierte Methode namens Feature Mixing zur Synthese multimodaler Ausreißer für die Verbesserung der Out-of-Distribution-Erkennung und -Segmentierung vor, ergänzt durch einen neuen Datensatz namens CARLA-OOD, und demonstriert damit einen neuen State-of-the-Art mit einer bis zu 370-fachen Geschwindigkeitssteigerung.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Die Arbeit untersucht die Konvergenz- und Fluchtdynamik des stochastischen Gradientenabstiegs in eindimensionalen Landschaften mit unterschiedlichem Rauschen und zeigt, wie Rauschcharakteristika und die Geometrie der Funktion bestimmen, ob SGD in Minima konvergiert, in der Nähe von Maxima verweilt oder diese mit einer bestimmten Wahrscheinlichkeit zu benachbarten Minima überwindet.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Dieses Paper stellt das BAH-Dataset vor, eine multimodale Videodatenbank mit 1.427 Aufnahmen von 300 Teilnehmern, die zur automatischen Erkennung von Ambivalenz und Zögern in digitalen Verhaltensänderungsinterventionen dient und erste Benchmark-Ergebnisse für die Entwicklung angepasster Modelle liefert.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

← Zurück Weiter →