cs.CL articoli | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Il paper presenta HeartAgent, un sistema autonomo specializzato in cardiologia che migliora significativamente l'accuratezza diagnostica e la spiegabilità rispetto ai metodi esistenti e agli esperti non assistiti, fornendo diagnosi differenziali affidabili e trasparenti basate su dati clinici reali.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Il paper presenta mAceReason-Math, un dataset multilingue di oltre 10.000 problemi matematici di alta qualità tradotti in 14 lingue e ottimizzati per l'addestramento tramite Reinforcement Learning con Ricompense Verificabili (RLVR), colmando il divario attuale di risorse non inglesi adatte alle capacità dei modelli moderni.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Il paper dimostra che la robustezza dei grandi modelli linguistici rispetto alla tokenizzazione a livello di carattere è resa possibile da un meccanismo di "recupero delle parole", identificato tramite analisi meccanicistica, che ricostruisce le identità dei token canonici dai caratteri di input e si basa su un'attenzione interna critica tra i caratteri appartenenti allo stesso token.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Questo lavoro propone l'uso di Large Language Models per generare annotazioni MQM semplificate, che vengono poi impiegate per addestrare un modello COMET, ottenendo così prestazioni competitive nella valutazione della qualità della traduzione (MTQE) a livello di segmento per le coppie linguistici cinese-inglese e inglese-tedesco, pur riducendo i costi di inferenza rispetto all'uso diretto degli LLM.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Questo studio presenta una pipeline assistita da LLM che trasforma quattro protocolli di identificazione delle metafore in script di regole eseguibili e interpretabili per il cinese, dimostrando che la scelta del protocollo è il fattore dominante nella variabilità dei risultati e che tale approccio garantisce trasparenza e riproducibilità senza compromettere le prestazioni.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Il paper presenta LuxBorrow, un'analisi di 27 anni di articoli RTL in lussemburghese che, attraverso un approccio focalizzato sul prestito linguistico, rivela come il lussemburghese rimanga la lingua matrice nonostante la pervasività del multilinguismo, evidenziando un'intensità di mescolanza moderata ma crescente nel tempo e una predominanza degli adattamenti morfologici e ortografici di origine francese.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Il paper presenta il Multilingual Reasoning Gym, un'estensione procedurale che genera problemi di ragionamento verificabili in 14 lingue con validazione di madrelingua, mantenendo la scalabilità e l'utilità per l'apprendimento per rinforzo e la valutazione dei modelli multilingue.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Il paper presenta PivotAttack, un framework "inside-out" efficiente che utilizza un algoritmo Multi-Armed Bandit per identificare e perturbare strategicamente gruppi di token chiave (Pivot Sets), superando le strategie esistenti negli attacchi testuali hard-label sia in termini di successo che di efficienza delle query.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Il paper presenta EvoKernel, un framework agenziale auto-evolutivo basato su un approccio di memoria guidata dal valore che supera la scarsità di dati nella sintesi di kernel per architetture NPU, migliorando drasticamente la correttezza e le prestazioni attraverso un processo di stesura iniziale e raffinamento continuo.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

Il paper propone $V_{0.5}$ , un modello di valore generalista che fonde adattivamente una previsione a priori con medie empiriche da rollouts sparsi tramite test statistici in tempo reale, ottenendo una stima del baseline a bassa varianza che supera significativamente GRPO e DAPO su sei benchmark di ragionamento matematico.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

Il documento presenta SiDiaC-v.2.0, il più ampio corpus diacronico in lingua singalese a oggi, che copre un arco temporale dal 1800 al 1955 con 244.000 parole provenienti da 185 opere letterarie, offrendo una risorsa fondamentale per l'elaborazione del linguaggio naturale in una lingua a bassa risorsa grazie a un rigoroso processo di pulizia, normalizzazione e annotazione.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Il paper presenta un nuovo corpus bilingue (inglese/tedesco) di record bibliografici annotati con l'Integrated Authority File (GND) e una tassonomia machine-actionable, progettato per abilitare la classificazione multi-etichetta consapevole dell'ontologia e supportare catalogatori umani tramite assistenti AI trasparenti e valutabili.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Il paper introduce ARMADA, un framework efficiente di distillazione della conoscenza cross-modale che trasferisce competenze da grandi modelli visione-linguaggio (inclusi modelli black-box) a modelli linguistici puri, ottenendo miglioramenti significativi nelle prestazioni senza richiedere pre-addestramento multimodale o modifiche al modello insegnante.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR è un modello multimodale compatto ed efficiente da 0,9 miliardi di parametri che, combinando un encoder visivo e un decoder linguistico con un innovativo meccanismo di previsione multi-token e una pipeline a due stadi, raggiunge prestazioni all'avanguardia nell'analisi e trascrizione di documenti reali, adattandosi sia a dispositivi edge che a sistemi di produzione su larga scala.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Il paper presenta LLM2Vec-Gen, un approccio auto-supervisionato che genera embedding rappresentando le potenziali risposte di un LLM invece del solo input, ottenendo prestazioni all'avanguardia su MTEB, riducendo i contenuti dannosi e migliorando le capacità di ragionamento senza richiedere dati etichettati.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Il paper introduce TOSSS, un nuovo benchmark basato sul database CVE per valutare la capacità dei Large Language Models di selezionare frammenti di codice sicuri rispetto a quelli vulnerabili, fornendo un punteggio di sicurezza complementare alle valutazioni esistenti.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen2026-03-12🤖 cs.LG

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Questo studio sistematico analizza l'impatto delle fonti e dei modelli di feedback sulla pseudo-relevance feedback basata su LLM, rivelando che la scelta del modello è cruciale e che l'uso esclusivo di testo generato dall'LLM offre la soluzione più efficiente in termini di costi, mentre il feedback derivato dal corpus risulta più vantaggioso quando si utilizzano documenti candidati da un recuperatore iniziale robusto.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Questo studio sfida l'assunto che l'alto accordo tra valutatori LLM garantisca affidabilità, rivelando un'"illusione di valutazione" basata su euristiche superficiali e proponendo il framework MERG, che genera rubriche dinamiche fondate su conoscenze di dominio per ottenere valutazioni più significative e coerenti.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

Instruction set for the representation of graphs

Il paper presenta IsalGraph, un metodo che codifica la struttura di qualsiasi grafo finito e semplice in una stringa compatta e isomorfismo-invariante tramite un alfabeto di nove istruzioni, dimostrando che la distanza di Levenshtein tra queste stringhe si correla fortemente con la distanza di modifica dei grafi (GED) e rendendole adatte a ricerche di similarità, generazione e modellazione linguistica.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

Il paper presenta COMIC, un sistema AI completamente automatizzato che genera video comici brevi imitando gli sketch show, utilizzando una popolazione di agenti ispirati ai ruoli di produzione e critici LLM allineati alle preferenze del pubblico per ottimizzare la qualità e la diversità degli output.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

← Precedente Successivo →

cs.CL