cs.CL articoli | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Questo paper introduce un modello Transformer bidirezionale compatto per la descrizione di immagini che, integrando flussi di generazione da sinistra a destra e viceversa in un'unica architettura eseguita in parallelo e sfruttando tecniche di ensemble, supera i limiti dei modelli unidirezionali e raggiunge risultati all'avanguardia senza pre-addestramento visione-linguaggio.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

Markovian Transformers for Informative Language Modeling

Il paper introduce un framework di modelli linguistici Markoviani con un collo di bottiglia autoencoder per il ragionamento, che forza i modelli a derivare le risposte esclusivamente da passaggi di pensiero coerenti, migliorando significativamente le prestazioni su task di QA e garantendo una maggiore affidabilità causale e generalizzabilità rispetto ai metodi tradizionali.

Scott Viteri, Max Lamparth, Peter Chatain + 1 more2026-03-11💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Questo studio stabilisce un legame formale tra l'analisi delle corrispondenze e i metodi di word embedding basati sulla PMI, dimostrando che le varianti ROOT-CA e ROOTROOT-CA superano leggermente i metodi tradizionali e raggiungono prestazioni competitive con BERT su diversi benchmark.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der Heijden2026-03-11💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Il paper presenta MKE-Coder, un nuovo framework che migliora la codifica automatica ICD nelle cartelle cliniche elettroniche cinesi integrando conoscenze multi-assiali con la verifica delle evidenze cliniche, superando le sfide linguistiche e strutturali specifiche di questo contesto.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji Wu2026-03-11🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Questo articolo presenta LoReSpeech, un nuovo corpus parallelo di parlato a bassa risorsa costruito attraverso un approccio collaborativo e strumenti di allineamento automatico, volto a migliorare i sistemi di traduzione vocale e favorire l'inclusività digitale per le lingue sottorappresentate.

Samy Ouzerrout2026-03-11💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Il paper introduce GateLens, un agente LLM che utilizza l'Algebra Relazionale come rappresentazione intermedia formale per garantire analisi rapide, trasparenti e affidabili di dati tabulari complessi nel settore automobilistico, superando i limiti dei sistemi basati su Chain-of-Thought e riducendo i tempi di analisi dell'80% senza necessità di esempi few-shot.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan Yu2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Il paper introduce SGPO, un framework che risolve il limite di GRPO di non aggiornare la politica quando tutti i campioni di un gruppo sono errati, migliorando l'apprendimento per rinforzo nei modelli linguistici attraverso una diversificazione guidata da un modello giudice passo-passo che permette di apprendere anche dagli errori senza richiedere soluzioni corrette.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

Il paper presenta MathQ-Verify, una pipeline innovativa a cinque stadi che verifica rigorosamente la validità e la completezza delle domande matematiche per filtrare problemi mal posti, migliorando significativamente le prestazioni rispetto ai metodi di verifica diretti e facilitando la creazione di dataset matematici affidabili.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Il paper presenta UltraEdit, un metodo innovativo per l'editing continuo dei modelli linguistici che, eliminando la necessità di addestramento, soggetti specifici o memoria esterna, raggiunge velocità e efficienza superiori rispetto agli stati dell'arte, permettendo di eseguire fino a 2 milioni di modifiche su modelli da 7B con risorse hardware limitate.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Questo articolo presenta la prima revisione sistematica sull'integrazione dei modelli fondazionali nell'intelligenza artificiale incarnata per i robot di servizio mobili, analizzando come tali tecnologie affrontino le sfide tecniche e abilitino applicazioni pratiche in ambiti domestici e sanitari, pur sollevando questioni etiche e prospettando direzioni future per un deployment sicuro e affidabile.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

ThinkQE: Query Expansion via an Evolving Thinking Process

Il paper presenta ThinkQE, un framework di espansione delle query che supera i limiti dei metodi LLM esistenti integrando un processo di ragionamento approfondito e una strategia di interazione iterativa con il corpus per migliorare la diversità e la copertura semantica nei risultati di ricerca web.

Yibin Lei, Tao Shen, Andrew Yates2026-03-11💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Il paper presenta ConLID, un approccio di apprendimento contrastivo supervisionato che migliora l'identificazione delle lingue a risorse limitate su dati fuori dominio ottenendo un incremento di 3,2 punti percentuali senza compromettere le prestazioni delle lingue ad alta risorsa.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Il paper introduce OPENXRD, un quadro di riferimento completo per valutare le capacità di assimilazione del contesto e di ragionamento dei modelli linguistici e multimodali nella domanda e risposta su diffrazione dei raggi X, evidenziando come materiali esperti di alta qualità e dimensioni moderate dei modelli ottimizzino le prestazioni scientifiche.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Il paper presenta AI Blob!, un sistema sperimentale che utilizza modelli linguistici di grandi dimensioni e tecniche di recupero semantico per trascrivere, indicizzare e rielaborare in nuove narrazioni ironiche e coerenti un archivio di 1.547 video televisivi italiani, ispirandosi al programma RAI "Blob".

Roberto Balestri2026-03-11💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

Il paper presenta TaoSR1, un framework che adatta i Large Language Models per la ricerca di rilevanza nell'e-commerce attraverso un processo in tre fasi di addestramento con Chain-of-Thought e ottimizzazione delle preferenze, risolvendo problemi di allucinazione e fattibilità di deployment per ottenere prestazioni superiori rispetto ai modelli basati su BERT.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Il paper introduce AgentCoMa, un nuovo benchmark che valuta la capacità dei modelli linguistici di combinare ragionamento di senso comune e matematico, rivelando che, a differenza degli esseri umani, gli LLM subiscono un drastico calo di prestazioni quando devono integrare questi due tipi di ragionamento, evidenziando una significativa fragilità nei compiti compositi misti.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek Rei2026-03-11💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Questo studio identifica il fenomeno della "Disallineamento Indotto dal Ragionamento" (RIM), spiegando meccanicamente come l'introduzione di specifici pattern di ragionamento possa paradossalmente compromettere la sicurezza dei modelli linguistici attraverso l'entanglement neurale e l'alterazione dei meccanismi di attenzione durante l'inferenza.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan He2026-03-11💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Il paper introduce SimpleQA Verified, un nuovo benchmark di 1.000 prompt che risolve le limitazioni del benchmark originale di OpenAI attraverso un rigoroso processo di filtraggio, fornendo uno strumento più affidabile per valutare la fattualità dei modelli linguistici e dimostrando che Gemini 2.5 Pro raggiunge lo stato dell'arte con un punteggio F1 di 55,6.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das2026-03-11💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Il paper presenta SEER, un framework adattivo che comprime il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni riducendo significativamente la latenza e i costi computazionali senza compromettere l'accuratezza, specialmente nei task di ingegneria del software.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

← Precedente Successivo →