cs.CL articoli | Gist.Science

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Il paper introduce MAWARITH, un dataset su larga scala di 12.500 casi di eredità islamica in arabo e una nuova metrica di valutazione MIR-E per testare la capacità di ragionamento strutturato dei modelli linguistici, dimostrando che mentre Gemini-2.5-flash raggiunge prestazioni elevate, altri modelli faticano a gestire la complessità delle regole giuridiche.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Il paper propone un framework di sintesi vocale senza apprendimento che applica regole fonologiche a un modello TTS multilingue per generare automaticamente accenti (come spagnolo e indiano) nell'inglese parlato senza richiedere dati di addestramento specifici.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Questo lavoro introduce "Nwāchā Munā", un nuovo corpus di parlato in Devanagari di 5,39 ore per la lingua Nepal Bhasha, e dimostra che il trasferimento prossimale da una lingua adiacente come il Nepalese può raggiungere prestazioni di riconoscimento vocale paragonabili a modelli multilingue su larga scala, offrendo una soluzione efficiente per le risorse limitate.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Il paper presenta KCoEvo, un framework potenziato da grafi della conoscenza che migliora l'accuratezza e l'esecuzione del codice evolutivo suddividendo il task di migrazione in recupero di percorsi evolutivi e generazione di codice informato, superando i limiti dei modelli linguistici di grandi dimensioni nel gestire le modifiche alle API di terze parti.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Il paper propone StyleBench, un benchmark per dialoghi multi-turno che valuta sistematicamente la capacità dei modelli linguistici vocali di controllare l'intensità dello stile conversazionale in quattro dimensioni: emozione, velocità, volume e tono.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

Il paper presenta KohakuRAG, un framework RAG gerarchico che preserva la struttura dei documenti attraverso un'indicizzazione ad albero a quattro livelli e migliora la precisione delle citazioni tramite pianificazione delle query e inferenza d'insieme, ottenendo il primo posto nella sfida WattBot 2025.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Questo documento presenta Megatron Core, un framework open-source che risolve le sfide del training scalabile dei modelli Mixture-of-Experts attraverso ottimizzazioni integrate per memoria, comunicazione e calcolo, consentendo addestramenti ad alte prestazioni su cluster di migliaia di GPU.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Questo studio valuta le capacità dei modelli linguistici di grandi dimensioni (LLM) nel risolvere problemi di ottimizzazione discreta su larga scala, rivelando che le prestazioni migliori dipendono dalla forza del modello e che tecniche come il ragionamento passo-passo (CoT) non sono sempre efficaci, fornendo così linee guida e benchmark per ricerche future.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Il paper introduce 3ViewSense, un nuovo framework che colma il divario di intelligenza spaziale nei modelli visione-linguaggio permettendo loro di costruire rappresentazioni mentali 3D coerenti da viste ortografiche attraverso un meccanismo di "simulazione e ragionamento" ispirato alla cognizione ingegneristica.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Questo studio dimostra che l'uso della whitening sui dati di embedding rivela l'aderenza al cluster come il separatore geometrico fondamentale per distinguere i tipi di allucinazione nei modelli linguistici, confermando che la difficoltà nel separare le categorie di errore 1 e 2 è una limitazione di capacità del modello e non un artefatto di misurazione.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Il paper presenta QuadAI, un sistema per l'analisi del sentiment basato su aspetti multidimensionale che combina un encoder RoBERTa ibrido con modelli linguistici di grandi dimensioni (LLM) tramite apprendimento d'insieme, ottenendo risultati significativamente migliori rispetto ai modelli individuali.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Il paper presenta ArcLight, un'architettura di inferenza per LLM leggera e ottimizzata per CPU many-core che, integrando gestione della memoria e pianificazione dei thread, supera i limiti delle soluzioni attuali riducendo l'overhead degli accessi cross-NUMA e aumentando il throughput fino al 46%.

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Questo studio valuta i pregiudizi sociali in sette modelli linguistici di grandi dimensioni all'interno del contesto culturale nepalese, rivelando che le metriche di accordo esplicito non catturano adeguatamente i bias generativi impliciti e sottolineando la necessità di dataset culturalmente fondati per le società sottorappresentate.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Questo studio presenta il benchmark AEPC-QA per valutare 51 modelli linguistici nel contesto assicurativo del Québec, rivelando che il ragionamento durante l'inferenza e la generazione aumentata dal recupero (RAG) sono fondamentali per l'accuratezza, sebbene quest'ultima possa causare distorsioni contestuali e che i modelli generalisti superino quelli specializzati di nicchia.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Il paper presenta DistillGuard, un framework che valuta nove configurazioni difensive contro la distillazione della conoscenza da LLM proprietari, rivelando che la maggior parte delle difese a livello di output è inefficace nel compromettere le capacità del modello studente, con l'eccezione parziale della rimozione del chain-of-thought che riduce solo le prestazioni nel ragionamento matematico.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Il paper presenta AI Steerability 360, una libreria Python open-source e nativa di Hugging Face che offre un'interfaccia unificata per controllare, comporre e valutare in modo sistematico i metodi di steering dei grandi modelli linguistici attraverso quattro superfici di controllo: input, struttura, stato e output.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Il paper presenta FusionSQL, un metodo innovativo che stima l'accuratezza dei modelli Text2SQL su dataset non visti e non etichettati analizzando i pattern delle loro stesse risposte, permettendo così una valutazione efficace senza bisogno di etichette di riferimento.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Il paper presenta SynPlanResearch-R1, un framework che migliora le prestazioni degli agenti di ricerca web sintetizzando traiettorie di utilizzo degli strumenti che incoraggiano un'esplorazione più profonda durante il fine-tuning supervisionato, ottenendo risultati superiori rispetto alle tecniche attuali su diversi benchmark.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

← Precedente Successivo →