cs.CL articoli | Gist.Science

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Questo capitolo esamina l'attuale panorama dei rilevatori di testi generati da IA, ne delinea l'uso responsabile e presenta un'analisi empirica sulla capacità di generalizzazione di tali strumenti tra diversi modelli linguistici, fornendo indicazioni per il loro sviluppo pratico.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Questo articolo evidenzia i limiti di TeX nell'era dei modelli linguistici su larga scala e propone Mogan STEM, un editor strutturato WYSIWYG che supera TeX in efficienza di compilazione, localizzazione degli errori e ottimizzazione per l'addestramento di LLM grazie al suo formato .tmu a bassa entropia.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Il paper propone un framework di collaborazione multi-agente basato sul processo "Proposta-Valutazione-Rivisione" e sull'apprendimento per rinforzo per migliorare l'estrazione degli argomenti degli eventi a livello di documento in scenari zero-shot, superando i limiti dei metodi attuali nella generazione e valutazione di dati sintetici.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Questo lavoro introduce un framework multi-agente basato su codice che dimostra come gli agenti di intelligenza artificiale possano evolvere autonomamente problemi matematici esistenti in varianti più complesse e risolvibili, affrontando la scarsità di dati di addestramento di alto livello.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

Il paper presenta AriadneMem, un sistema di memoria strutturato per agenti LLM che risolve i problemi di evidenze disconnesse e aggiornamenti di stato tramite un processo a due fasi, ottenendo significativi miglioramenti nell'accuratezza e una drastica riduzione dei tempi di esecuzione e dell'uso del contesto.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Questo studio identifica e categorizza diverse distorsioni persistenti nei modelli di ricompensa linguistica, proponendo una semplice tecnica di "modellazione meccanica della ricompensa" che mitiga efficacemente tali bias senza comprometterne la qualità generale.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Il paper propone MA-RAG, un framework di RAG agenziale multi-round che trasforma i conflitti semantici in query di ricerca iterativa per raggiungere un consenso medico ad alta fedeltà, ottenendo un miglioramento significativo dell'accuratezza rispetto ai modelli di base e alle tecniche esistenti.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Il paper presenta SE-Search, un agente di ricerca auto-evolutivo che migliora le prestazioni del RAG attraverso una strategia "Pensa-Cerca-Memora", l'addestramento su query atomiche e ricompense dense, ottenendo risultati significativamente superiori rispetto ai metodi esistenti su benchmark di domande e risposte.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Questo lavoro presenta un'architettura ibrida di LLM, ottimizzata tramite fine-tuning su dati agricoli curati e un livello di sintesi sicuro, che migliora l'accuratezza fattuale e la pertinenza culturale dei consigli per gli agricoltori indiani riducendo al contempo i costi e i rischi di allucinazione.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Lo studio rivela che i modelli linguistici di grandi dimensioni, inclusi quelli all'avanguardia e addestrati per emulare gli umani, divergono sostanzialmente dalle preferenze di selezione degli obiettivi umane in compiti aperti, mostrando una tendenza all'ottimizzazione eccessiva o a prestazioni scarse che ne sconsiglia l'uso come proxy affidabili in ambiti critici come l'assistenza personale e la ricerca scientifica.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Il paper presenta PlugMem, un modulo di memoria plugin indipendente dal compito che, ispirandosi alle scienze cognitive, trasforma le memorie episodiche in un grafo della conoscenza compatto ed estensibile, permettendo agli agenti LLM di recuperare informazioni rilevanti in modo efficiente e superando sia le soluzioni specifiche per compito che i metodi agnostici esistenti.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Il paper propone TTSR, un framework di auto-riflessione a tempo di test che utilizza un ciclo continuo tra ruoli di "Studente" e "Insegnante" per generare domande varianti mirate alle debolezze di ragionamento, migliorando così le prestazioni dei modelli linguistici su compiti matematici complessi.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Il paper presenta TATRA, un metodo di prompting privo di addestramento che genera istantaneamente esempi specifici per ogni istanza tramite riformulazione e aggregazione, ottenendo prestazioni all'avanguardia su benchmark di classificazione e ragionamento matematico senza richiedere dati etichettati o ottimizzazione iterativa.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Questo studio presenta un'ampia audit su 10 modelli linguistici che rivela tassi di allucinazione delle citazioni variabili tra l'11,4% e il 56,8%, dimostrando che tali errori sono indotti dal prompt e proponendo efficaci strategie di mitigazione come il consenso multi-modello e un classificatore leggero basato sulle stringhe bibliografiche per rilevare le citazioni fantasma senza interrogare database esterni.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Questo studio valuta le prestazioni di diversi strumenti di ricerca legale basati sull'IA sul benchmark LaborBench, rivelando che mentre le soluzioni commerciali mostrano risultati inferiori rispetto ai modelli RAG standard, uno strumento personalizzato (STARA) raggiunge un'accuratezza del 92% correggendo anche omissioni presenti nel ground truth originale, fornendo così principi guida per il futuro sviluppo di sistemi legali affidabili.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Questo articolo esplora le sfide e le soluzioni per la cache semantica negli LLM, dimostrando la complessità NP-difficile della politica offline ottimale e proponendo nuove euristiche online che migliorano l'accuratezza semantica rispetto ai metodi basati sulla frequenza.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Questo articolo propone un framework multi-agente basato su Retrieval-Augmented Generation (RAG) e modelli visione-linguaggio per ottimizzare la gestione della conoscenza e la formazione del personale nei dipartimenti dei trasporti statali, superando le limitazioni dei metodi tradizionali attraverso la generazione di risposte contestuali e verificate.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Il paper propone HumanLM, un nuovo framework di addestramento che supera la semplice imitazione linguistica allineando gli stati latenti psicologici dei modelli con le risposte reali degli utenti, ottenendo risultati superiori rispetto ai metodi esistenti sia su un ampio benchmark (Humanual) che in uno studio con partecipanti umani.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Il paper propone la Draft-Conditioned Constrained Decoding (DCCD), un metodo di inferenza senza addestramento che separa la pianificazione semantica dal vincolo strutturale tramite una generazione preliminare libera, migliorando significativamente l'accuratezza nella generazione di output strutturati e l'efficienza parametrica rispetto alle tecniche di decodifica vincolata tradizionali.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Lo studio dimostra che, sebbene TOON offra un potenziale risparmio di token significativo per strutture complesse, il suo vantaggio è spesso annullato dall'overhead del prompt e che la generazione JSON standard, anche senza vincoli, mantiene attualmente la migliore accuratezza e un rapporto efficienza-affidabilità superiore rispetto all'apprendimento in contesto one-shot di TOON.

Ivan Matveev2026-03-05🤖 cs.AI

← Precedente Successivo →