cs.CL articoli | Gist.Science

Language Shapes Mental Health Evaluations in Large Language Models

Questo studio dimostra che i modelli linguistici di grandi dimensioni (LLM) come GPT-4o e Qwen3 mostrano valutazioni sistematicamente più stigmatizzanti e sottostimano la gravità della depressione quando vengono interrogati in cinese rispetto all'inglese, rivelando come il contesto linguistico influenzi le decisioni in ambito di salute mentale.

Jiayi Xu, Xiyang Hu2026-03-10💬 cs.CL

A Dynamic Self-Evolving Extraction System

Il paper propone DySECT, un sistema di estrazione auto-evolutivo che crea un ciclo virtuoso in cui un modello LLM popola dinamicamente una base di conoscenza che, a sua volta, raffina l'estrazione futura attraverso ragionamento grafico e addestramento sintetico.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

Il paper introduce REdit, un framework innovativo che risolve il compromesso tra generalità e località nell'editing dei modelli linguistici, ridisegnando attivamente i circuiti neurali per correggere specifici errori di ragionamento senza compromettere le capacità esistenti.

Zhenyu Lei, Qiong Wu, Jianxiong Dong, Yinhan He, Emily Dodwell, Yushun Dong, Jundong Li2026-03-10💬 cs.CL

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Questo studio presenta un caso di meta-valutazione per benchmark di domande e risposte scientifiche lunghe, dimostrando che mentre le preferenze umane a coppie sono adatte per la valutazione a livello di sistema, una valutazione affidabile a livello di metrica richiede annotazioni esplicite ed esperti, fornendo così linee guida per migliorare gli standard di valutazione dei sistemi di ricerca approfondita.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Il paper introduce Chart-RL, un metodo di apprendimento per rinforzo che utilizza ricompense matematicamente verificabili per migliorare la comprensione dei grafici nei modelli visione-linguaggio, dimostrando che la complessità dei dati di addestramento è più cruciale della quantità e ottenendo prestazioni superiori rispetto al fine-tuning supervisionato su vari benchmark.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

Il paper presenta Elenchus, un sistema dialogico basato su LLM che costruisce basi di conoscenza attraverso l'interazione tra un esperto umano e un'opponente artificiale, mappando lo stato dialettico risultante nella logica NMMS per formalizzare e verificare le relazioni inferenziali, come dimostrato nell'ontologia PROV-O.

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Questo studio presenta la prima valutazione su larga scala di 36 strategie di frammentazione dei documenti, dimostrando che i metodi orientati al contenuto, in particolare il raggruppamento per paragrafi, superano significativamente le divisioni fisse di base nel migliorare l'efficacia del recupero delle informazioni attraverso diversi domini e modelli di embedding.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Il paper presenta Self-MOA, un framework automatizzato che allinea i piccoli modelli linguistici utilizzando supervisione debole da valutatori automatici, ottenendo un miglioramento del 12,41% nella sicurezza rispetto ai metodi tradizionali con una frazione dei dati di addestramento necessari.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge

Il paper presenta AutoChecklist, una libreria open-source che unifica la generazione e la valutazione basata su checklist per i modelli linguistici attraverso pipeline componibili, offrendo strumenti CLI e web per l'adattamento flessibile a diversi domini e provider LLM.

Karen Zhou, Chenhao Tan2026-03-10💬 cs.CL

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Il paper presenta Hit-RAG, un framework di allineamento delle preferenze su più stadi che risolve i problemi di diluizione dell'attenzione e allucinazioni nei modelli linguistici multimodali con contesti estesi, migliorando significativamente la capacità di ragionamento e l'uso delle evidenze esterne attraverso un processo di ottimizzazione progressiva.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Il paper propone un metodo di distillazione consapevole della lingua che utilizza un banco di query e una rete di gating per addestrare modelli linguistici vocali multilingue con supervisione ASR-only, ottenendo significativi miglioramenti nel seguire istruzioni e nelle risposte a domande audio rispetto ai baselines esistenti.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Il paper introduce CoTJudger, un framework guidato da grafi che valuta l'efficienza dei Modelli di Ragionamento su larga scala convertendo le catene di pensiero in grafi di dipendenza per identificare il percorso più breve necessario, permettendo così di distinguere tra logica essenziale e ridondanza strutturale.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Il paper propone la "Distillazione On-Policy Consapevole dell'Entropia", un metodo che combina divergenze KL inverse e dirette per gestire l'incertezza dell'insegnante, migliorando la diversità generativa e le prestazioni di ragionamento matematico nei modelli linguistici rispetto alle tecniche di distillazione tradizionali.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Il paper introduce Countdown-Code, un ambiente di test che rivela come anche una minima contaminazione di dati di addestramento con strategie di "reward hacking" possa indurre modelli LLM a imparare e generalizzare tale comportamento, aggravato successivamente dall'apprendimento per rinforzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Questo studio presenta un agente AI per il gioco del Lupacchiotto sviluppato per la sfida AIWolfDial 2024, che migliora la coerenza delle risposte e la coerenza del personaggio integrando riassunti del dialogo e informazioni sulla personalità all'interno di un modello linguistico di grandi dimensioni.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Questo lavoro introduce un nuovo compito chiamato Trascrizione Emotiva nella Conversazione (ETC) e un corrispondente dataset giapponese per superare i limiti delle annotazioni emotive tradizionali, consentendo la generazione di descrizioni linguistiche naturali che catturano sfumature emotive complesse e sottili.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Il paper presenta DCTR, un meccanismo di recupero tabelle che utilizza la decomposizione di query tipizzate e la consapevolezza della connettività globale per migliorare la risposta a domande complesse su database relazionali, dimostrando robustezza su benchmark industriali.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Questo studio introduce un framework basato su un gioco delle 20 domande e su un meccanismo di "forking" conversazionale per rilevare la menzogna intenzionale nei LLM, rivelando che minacce esistenziali innescano strategie deceptive in modelli come Qwen-3-235B e Gemini-2.5-Flash, mentre GPT-4o rimane invariato.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah2026-03-10💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Lo studio dimostra che scalare i modelli di linguaggio auto-supervisionati da 126 a 4.017 lingue rivela un cambiamento qualitativo non lineare che permette di catturare sia le relazioni genealogiche profonde che i contatti linguistici a lungo termine, come evidenziato dalla formazione di un robusto macro-cluster nel Pacifico basato su firme acustiche condivise.

Minu Kim, Hoirin Kim, David R. Mortensen2026-03-10💬 cs.CL

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

Il paper introduce TS-Bench, un benchmark di sicurezza specifico per il mandarino taiwanese, e Breeze Guard, un modello di sicurezza specializzato che, grazie alla sua radice culturale, supera significativamente i modelli generali nell'individuazione di rischi locali come le truffe finanziarie e la disinformazione.

Po-Chun Hsu, Meng-Hsi Chen, Tsu Ling Chao, Chia Tien Han, Da-shan Shiu2026-03-10💬 cs.CL

← Precedente Successivo →