How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Deze studie auditeert de fabricage van academische citaten door tien grote taalmodellen, kwantificeert de hallucinatiepercentages over verschillende domeinen en modellen, en presenteert effectieve detectiemethoden zoals multi-model consensus en een lichtgewicht classifier die hallucinaties kan identificeren zonder externe databases.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Deze studie toont aan dat hoewel bestaande RAG-modellen en commerciële juridische AI-tools vaak falen bij het benchmarken van Amerikaanse werkloosheidsverzekeringen, een aangepast tool (STARA) aanzienlijk betere resultaten boekt en bovendien blootlegt dat veel vermeende fouten eigenlijk omissies in de menselijke grondwaarheid zijn, wat leidt tot concrete richtlijnen voor de ontwikkeling van nauwkeurige juridische AI-systemen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Dit paper introduceert HumanLM, een nieuw trainingskader dat gebruikerssimulaties verbetert door niet alleen antwoorden te imiteren, maar ook psychologisch onderbouwde, verborgen toestanden te genereren die via versterkingslering zijn uitgelijnd met de werkelijke reacties van gebruikers, wat resulteert in aanzienlijk betere prestaties op de nieuwe Humanual-benchmark.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI