Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Diese Studie stellt mit PubHealthBench einen neuen Benchmark vor, der über 8000 Fragen zu britischen öffentlichen Gesundheitsinformationen enthält und zeigt, dass zwar fortschrittliche proprietäre LLMs bei Multiple-Choice-Fragen menschliche Leistungen übertreffen, ihre Genauigkeit bei freien Textantworten jedoch weiterhin verbesserungswürdig ist und zusätzliche Sicherheitsvorkehrungen erfordert.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time-Series Analysis

Die Arbeit stellt TSPulse vor, eine Familie ultra-leichter, vortrainierter Modelle mit entkoppelten Repräsentationen, die durch ein neuartiges Pre-Training-Framework und hybride Maskierungsstrategien in der Lage sind, auf über 75 Datensätzen in verschiedenen Zeitreihenaufgaben wie Anomalieerkennung und Imputation state-of-the-art Zero-Shot-Leistungen zu erzielen und dabei deutlich größere Modelle zu übertreffen.

Vijay Ekambaram, Subodh Kumar, Arindam Jati + 5 more2026-03-05🤖 cs.AI

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Die Arbeit stellt eine extrem einfache und theoretisch fundierte Methode namens Feature Mixing zur Synthese multimodaler Ausreißer für die Verbesserung der Out-of-Distribution-Erkennung und -Segmentierung vor, ergänzt durch einen neuen Datensatz namens CARLA-OOD, und demonstriert damit einen neuen State-of-the-Art mit einer bis zu 370-fachen Geschwindigkeitssteigerung.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Die Arbeit untersucht die Konvergenz- und Fluchtdynamik des stochastischen Gradientenabstiegs in eindimensionalen Landschaften mit unterschiedlichem Rauschen und zeigt, wie Rauschcharakteristika und die Geometrie der Funktion bestimmen, ob SGD in Minima konvergiert, in der Nähe von Maxima verweilt oder diese mit einer bestimmten Wahrscheinlichkeit zu benachbarten Minima überwindet.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Die Arbeit stellt TADA vor, ein Framework zur gezielten Bildaugmentation mittels Diffusionsmodellen, das durch selektive Erweiterung nur derjenigen Trainingsdaten, die zu Beginn des Lernprozesses noch nicht erfasst wurden, die Generalisierungsfähigkeit von Bildklassifizierern effizient verbessert und dabei den Rechenaufwand im Vergleich zu herkömmlichen Methoden signifikant reduziert.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

Die Studie stellt einen effizienten, kopulabasierten Filter vor, der Merkmale anhand ihrer gemeinsamen Extremwerte mit der positiven Klasse bewertet und sich in der Diabetes-Risikovorhersage als schneller und klinisch interpretierbarer Ansatz erweist, der insbesondere bei großen Datensätzen mit Standardmethoden konkurrieren kann.

Agnideep Aich, Md Monzur Murshed, Sameera Hewage + 1 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Die Arbeit stellt „Supervised Calibration" (SC) vor, ein auf Verlustminimierung basierendes Framework, das durch das Lernen optimaler affiner Transformationen im Logit-Raum und die Integration spezieller Regularisierungstechniken die Grenzen bestehender Kalibrierungsmethoden überwindet und so die Leistung von Large Language Models beim In-Context Learning signifikant verbessert.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Das Paper stellt AutoQD vor, einen theoretisch fundierten Ansatz, der mithilfe von Zufalls-Fourier-Features und Occupancy-Maßen automatisch aussagekräftige Verhaltensdeskriptoren für Quality-Diversity-Optimierung generiert, wodurch die Abhängigkeit von manuell definierten Merkmalen überwunden und eine offene Entdeckung vielfältiger Verhaltensweisen in der Reinforcement Learning ermöglicht wird.

Saeed Hedayatian, Stefanos Nikolaidis2026-03-05🤖 cs.AI

Robust Adversarial Quantification via Conflict-Aware Evidential Deep Learning

Die vorgestellte Arbeit führt Conflict-Aware Evidential Deep Learning (C-EDL) ein, eine leichte Nachbearbeitungsmethode, die durch die Quantifizierung von Repräsentationswidersprüchen mittels diverser Transformationen die Robustheit von Evidential Deep Learning gegenüber adversariellen Angriffen und Out-of-Distribution-Daten signifikant verbessert, ohne dass ein Nachtraining erforderlich ist.

Charmaine Barker, Daniel Bethell, Simos Gerasimou2026-03-05🤖 cs.AI