Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Deze paper introduceert een multi-agent collaboratief framework dat het menselijke 'voorstellen-evalueren-aanpassen'-proces nabootst om via versterkingsleer synthetische data te genereren en te valideren, waardoor de prestaties van zero-shot document-level event argument-extractie aanzienlijk worden verbeterd.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Deze studie auditeert de fabricage van academische citaten door tien grote taalmodellen, kwantificeert de hallucinatiepercentages over verschillende domeinen en modellen, en presenteert effectieve detectiemethoden zoals multi-model consensus en een lichtgewicht classifier die hallucinaties kan identificeren zonder externe databases.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Deze studie toont aan dat hoewel bestaande RAG-modellen en commerciële juridische AI-tools vaak falen bij het benchmarken van Amerikaanse werkloosheidsverzekeringen, een aangepast tool (STARA) aanzienlijk betere resultaten boekt en bovendien blootlegt dat veel vermeende fouten eigenlijk omissies in de menselijke grondwaarheid zijn, wat leidt tot concrete richtlijnen voor de ontwikkeling van nauwkeurige juridische AI-systemen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Dit paper introduceert HumanLM, een nieuw trainingskader dat gebruikerssimulaties verbetert door niet alleen antwoorden te imiteren, maar ook psychologisch onderbouwde, verborgen toestanden te genereren die via versterkingslering zijn uitgelijnd met de werkelijke reacties van gebruikers, wat resulteert in aanzienlijk betere prestaties op de nieuwe Humanual-benchmark.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI