Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Dit artikel introduceert PubHealthBench, een nieuwe benchmark met meer dan 8000 vragen gebaseerd op Britse overheidsrichtlijnen om de kennis van LLMs op het gebied van volksgezondheid te evalueren, waarbij wordt geconstateerd dat hoewel de nieuwste modellen bij meerkeuzevragen menselijke prestaties overtreffen, hun prestaties bij open antwoorden beperkter blijven en aanvullende veiligheidsmaatregelen vereisen.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Deze paper introduceert Supervised Calibration (SC), een unificerend framework dat de beperkingen van bestaande kalibratiemethoden voor In-Context Learning in LLMs overwint door het leren van optimale affiene transformaties in de logit-ruimte, waardoor de beslissingsgrenzen effectief kunnen worden aangepast en de prestaties aanzienlijk worden verbeterd.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Deze studie analyseert hoe voorkeurmodellen voor taalmodellen systematisch worden beïnvloed door oppervlakkige kenmerken zoals lengte en stijl in plaats van inhoudelijke kwaliteit, en stelt een effectieve post-training-methode voor op basis van contrafactuele data-augmentatie om deze vertekeningen te verminderen en de betrouwbaarheid van de evaluaties te vergroten.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Dit paper introduceert CounselBench, een grootschalig benchmarkkader ontwikkeld met 100 mentale gezondheidsprofessionals om grote taalmodellen te evalueren op hun vermogen om veilige, klinisch onderbouwde en contextueel gevoelige antwoorden te geven op open vragen over mentale gezondheid, waarbij zowel de beperkingen van bestaande modellen als de systematische onderschatting van veiligheidsrisico's door AI-jurissen worden blootgelegd.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL