Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Diese Studie stellt mit PubHealthBench einen neuen Benchmark vor, der über 8000 Fragen zu britischen öffentlichen Gesundheitsinformationen enthält und zeigt, dass zwar fortschrittliche proprietäre LLMs bei Multiple-Choice-Fragen menschliche Leistungen übertreffen, ihre Genauigkeit bei freien Textantworten jedoch weiterhin verbesserungswürdig ist und zusätzliche Sicherheitsvorkehrungen erfordert.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time-Series Analysis

Die Arbeit stellt TSPulse vor, eine Familie ultra-leichter, vortrainierter Modelle mit entkoppelten Repräsentationen, die durch ein neuartiges Pre-Training-Framework und hybride Maskierungsstrategien in der Lage sind, auf über 75 Datensätzen in verschiedenen Zeitreihenaufgaben wie Anomalieerkennung und Imputation state-of-the-art Zero-Shot-Leistungen zu erzielen und dabei deutlich größere Modelle zu übertreffen.

Vijay Ekambaram, Subodh Kumar, Arindam Jati + 5 more2026-03-05🤖 cs.AI

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Die Arbeit stellt eine extrem einfache und theoretisch fundierte Methode namens Feature Mixing zur Synthese multimodaler Ausreißer für die Verbesserung der Out-of-Distribution-Erkennung und -Segmentierung vor, ergänzt durch einen neuen Datensatz namens CARLA-OOD, und demonstriert damit einen neuen State-of-the-Art mit einer bis zu 370-fachen Geschwindigkeitssteigerung.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Die Arbeit untersucht die Konvergenz- und Fluchtdynamik des stochastischen Gradientenabstiegs in eindimensionalen Landschaften mit unterschiedlichem Rauschen und zeigt, wie Rauschcharakteristika und die Geometrie der Funktion bestimmen, ob SGD in Minima konvergiert, in der Nähe von Maxima verweilt oder diese mit einer bestimmten Wahrscheinlichkeit zu benachbarten Minima überwindet.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Die Arbeit stellt TADA vor, ein Framework zur gezielten Bildaugmentation mittels Diffusionsmodellen, das durch selektive Erweiterung nur derjenigen Trainingsdaten, die zu Beginn des Lernprozesses noch nicht erfasst wurden, die Generalisierungsfähigkeit von Bildklassifizierern effizient verbessert und dabei den Rechenaufwand im Vergleich zu herkömmlichen Methoden signifikant reduziert.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

Die Studie stellt einen effizienten, kopulabasierten Filter vor, der Merkmale anhand ihrer gemeinsamen Extremwerte mit der positiven Klasse bewertet und sich in der Diabetes-Risikovorhersage als schneller und klinisch interpretierbarer Ansatz erweist, der insbesondere bei großen Datensätzen mit Standardmethoden konkurrieren kann.

Agnideep Aich, Md Monzur Murshed, Sameera Hewage + 1 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Die Arbeit stellt „Supervised Calibration" (SC) vor, ein auf Verlustminimierung basierendes Framework, das durch das Lernen optimaler affiner Transformationen im Logit-Raum und die Integration spezieller Regularisierungstechniken die Grenzen bestehender Kalibrierungsmethoden überwindet und so die Leistung von Large Language Models beim In-Context Learning signifikant verbessert.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI