Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Il paper propone un framework di collaborazione multi-agente basato sul processo "Proposta-Valutazione-Rivisione" e sull'apprendimento per rinforzo per migliorare l'estrazione degli argomenti degli eventi a livello di documento in scenari zero-shot, superando i limiti dei metodi attuali nella generazione e valutazione di dati sintetici.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Lo studio rivela che i modelli linguistici di grandi dimensioni, inclusi quelli all'avanguardia e addestrati per emulare gli umani, divergono sostanzialmente dalle preferenze di selezione degli obiettivi umane in compiti aperti, mostrando una tendenza all'ottimizzazione eccessiva o a prestazioni scarse che ne sconsiglia l'uso come proxy affidabili in ambiti critici come l'assistenza personale e la ricerca scientifica.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Questo studio presenta un'ampia audit su 10 modelli linguistici che rivela tassi di allucinazione delle citazioni variabili tra l'11,4% e il 56,8%, dimostrando che tali errori sono indotti dal prompt e proponendo efficaci strategie di mitigazione come il consenso multi-modello e un classificatore leggero basato sulle stringhe bibliografiche per rilevare le citazioni fantasma senza interrogare database esterni.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Questo studio valuta le prestazioni di diversi strumenti di ricerca legale basati sull'IA sul benchmark LaborBench, rivelando che mentre le soluzioni commerciali mostrano risultati inferiori rispetto ai modelli RAG standard, uno strumento personalizzato (STARA) raggiunge un'accuratezza del 92% correggendo anche omissioni presenti nel ground truth originale, fornendo così principi guida per il futuro sviluppo di sistemi legali affidabili.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Questo articolo propone un framework multi-agente basato su Retrieval-Augmented Generation (RAG) e modelli visione-linguaggio per ottimizzare la gestione della conoscenza e la formazione del personale nei dipartimenti dei trasporti statali, superando le limitazioni dei metodi tradizionali attraverso la generazione di risposte contestuali e verificate.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Il paper propone la Draft-Conditioned Constrained Decoding (DCCD), un metodo di inferenza senza addestramento che separa la pianificazione semantica dal vincolo strutturale tramite una generazione preliminare libera, migliorando significativamente l'accuratezza nella generazione di output strutturati e l'efficienza parametrica rispetto alle tecniche di decodifica vincolata tradizionali.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Lo studio dimostra che, sebbene TOON offra un potenziale risparmio di token significativo per strutture complesse, il suo vantaggio è spesso annullato dall'overhead del prompt e che la generazione JSON standard, anche senza vincoli, mantiene attualmente la migliore accuratezza e un rapporto efficienza-affidabilità superiore rispetto all'apprendimento in contesto one-shot di TOON.

Ivan Matveev2026-03-05🤖 cs.AI