Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Diese Studie untersucht, wie Sprachmodelle die syntaktischen Einschränkungen der englischen Passivbildung erlernen, indem sie durch Manipulation der Trainingsdaten nachweisen, dass sowohl die Häufigkeit der Verben (Einschleifung) als auch ihre semantischen Eigenschaften (Betroffenheit) unabhängig voneinander zur Lernleistung beitragen.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Diese Studie stellt mit PubHealthBench einen neuen Benchmark vor, der über 8000 Fragen zu britischen öffentlichen Gesundheitsinformationen enthält und zeigt, dass zwar fortschrittliche proprietäre LLMs bei Multiple-Choice-Fragen menschliche Leistungen übertreffen, ihre Genauigkeit bei freien Textantworten jedoch weiterhin verbesserungswürdig ist und zusätzliche Sicherheitsvorkehrungen erfordert.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Die Arbeit stellt MoB vor, eine Methode zur visuellen Token-Pruning, die durch die Formulierung als bi-zielgerichtetes Abdeckungsproblem und die Nutzung von Hausdorff-Distanz sowie ϵ\epsilon-Abdeckungstheorie einen optimalen Kompromiss zwischen Prompt-Ausrichtung und visueller Erhaltung findet, wodurch bei Multimodalen Large Language Models wie LLaVA eine signifikante Beschleunigung bei minimalem Leistungsverlust erreicht wird.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Die Arbeit stellt „Supervised Calibration" (SC) vor, ein auf Verlustminimierung basierendes Framework, das durch das Lernen optimaler affiner Transformationen im Logit-Raum und die Integration spezieller Regularisierungstechniken die Grenzen bestehender Kalibrierungsmethoden überwindet und so die Leistung von Large Language Models beim In-Context Learning signifikant verbessert.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Diese Arbeit untersucht systematisch, wie Vorurteile in Trainingsdaten zu einer Fehlausrichtung von Präferenzmodellen führen, die oberflächliche Merkmale wie Länge oder Stil überbewerten, und schlägt eine Methode zur Nachschulung mittels kontrastiver Datenverstärkung vor, um diese Verzerrungen effektiv zu reduzieren und die Zuverlässigkeit der Modelle zu erhöhen.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Die Studie stellt CounselBench vor, ein umfassendes Benchmarking-Framework, das mit Hilfe von 100 Fachleuten für psychische Gesundheit entwickelt wurde, um die Leistung und Sicherheitsrisiken von großen Sprachmodellen bei der Beantwortung offener Patientenfragen im Bereich der psychischen Gesundheit zu evaluieren und zu testen.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL