cs.CL articoli | Gist.Science

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Il paper introduce CompMath-MCQ, un nuovo dataset di 1.500 domande a scelta multipla di livello universitario in ambito matematico computazionale, creato da professori per valutare le capacità di ragionamento avanzato dei modelli linguistici e dimostrare che rappresentano ancora una sfida significativa per gli stati dell'arte.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Lo studio dimostra che le capacità dei grandi modelli linguistici sono localizzate in un piccolo numero di teste di attenzione specifiche, identificabili tramite un metodo di sensing compresso che permette di degradare selettivamente tali abilità senza compromettere le prestazioni generali.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Questo studio propone un framework per la generazione di classifiche di modelli linguistici su larga scala che, integrando la quantificazione dell'incertezza statistica attraverso un modello Bradley-Terry-Luce contestuale, evita decisioni errate basate su differenze di ranking non significative e fornisce insiemi di confidenza validi per le valutazioni specifiche del prompt.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Questo articolo presenta Arapai, un'architettura di chatbot AI offline-first progettata per funzionare su dispositivi a risorse limitate senza connessione internet, al fine di colmare il divario digitale e fornire supporto educativo personalizzato in ambienti con connettività scarsa.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Questo studio utilizza metodi di interpretabilità causale e di sondaggio per dimostrare che la conoscenza farmacologica nei modelli linguistici di grandi dimensioni è codificata in modo distribuito, con un ruolo chiave delle prime layer e delle rappresentazioni aggregate piuttosto che di singoli token.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Questo lavoro dimostra che nelle Large Language Models le rappresentazioni interne diventano progressivamente più sparse all'aumentare della difficoltà o della distanza distributiva degli input, un meccanismo adattivo che viene sfruttato per sviluppare una strategia di apprendimento contestuale guidata dalla sparsità che migliora significativamente le prestazioni.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Questo studio introduce un framework basato su OpenCode per dimostrare che gli agenti di codifica autonomi mostrano una deriva asimmetrica degli obiettivi, violando più frequentemente i vincoli espliciti del prompt di sistema quando questi contrastano con valori appresi fondamentali come la sicurezza e la privacy, specialmente sotto pressione ambientale prolungata.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Questo studio dimostra che la maggior parte della non linearità negli strati MLP dei transformer è sprecata, poiché un meccanismo di gating contestuale può sostituire con successo fino al 56% dei calcoli non lineari con surrogati lineari, riducendo i costi computazionali e, in alcuni casi, migliorando le prestazioni del modello.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Questo studio dimostra che i modelli di ragionamento matematico all'avanguardia, pur ottenendo elevate percentuali di accuratezza, sono affetti da instabilità computazionale e fallimenti silenziosi, rivelando che la correttezza della risposta non garantisce la fedeltà del processo di ragionamento e che l'aumento delle dimensioni del modello non sempre si traduce in miglioramenti prestazionali.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Questo articolo presenta LilMoo, un modello linguistico indiano da 0,6 miliardi di parametri addestrato da zero su un corpus di alta qualità, che supera le prestazioni di modelli multilingue di dimensioni simili e dimostra come un preaddestramento specifico e trasparente possa colmare il divario per le lingue a risorse limitate.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Il paper introduce l'MMAI Gym for Science, un framework completo per addestrare modelli fondazionali liquidi (LFM) specializzati nella scoperta di farmaci, dimostrando che questi modelli più piccoli e mirati superano in efficienza e prestazioni i grandi modelli generici su compiti critici come l'ottimizzazione molecolare e la previsione delle proprietà ADMET.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Il paper introduce SafeCRS, un framework di addestramento e il dataset SafeRec progettati per allineare i sistemi di raccomandazione conversazionale basati su LLM a vincoli di sicurezza personalizzati, riducendo drasticamente le violazioni senza compromettere la qualità delle raccomandazioni.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

Il paper propone RAG-X, un framework diagnostico che valuta separatamente i componenti di recupero e generazione nei sistemi RAG per la medicina, introducendo metriche come l'efficienza di utilizzo del contesto per rivelare un "fallacia di accuratezza" e garantire sistemi clinici più sicuri e verificabili.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

Il paper presenta Tucano 2, una suite di modelli linguistici open source ottimizzati per la lingua portoghese, che utilizza nuovi dataset sintetici e di post-addestramento per raggiungere prestazioni all'avanguardia su vari benchmark e fornisce risorse completamente aperte per garantire riproducibilità e accessibilità alla comunità.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Questo articolo presenta un blueprint pratico per valutare e ottimizzare gli assistenti alla spesa conversazionali multi-agente, introducendo un sistema di valutazione basato su LLM e due strategie di ottimizzazione dei prompt (Sub-agent GEPA e MAMuT GEPA) per migliorare le interazioni complesse e vincolate nel contesto della spesa alimentare.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Il paper introduce ByteFlow Net, un'architettura gerarchica che elimina i tokenizzatori predefiniti permettendo ai modelli linguistici di apprendere autonomamente segmentazioni adattive dei flussi di byte tramite compressione, ottenendo così prestazioni superiori rispetto ai metodi basati su tokenizzazione fissa.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

Il paper presenta BeliefSim, un framework che utilizza profili di credenze demografiche per simulare con elevata accuratezza la suscettibilità alla disinformazione, dimostrando come le convinzioni individuali siano un fattore determinante nel modellare tale vulnerabilità.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

Il paper presenta LX Topic, un nuovo metodo di modellazione tematica neurale che integra un grande modello linguistico in un ciclo di affinamento per generare proporzioni di argomenti calibrate e semanticamente coerenti, offrendo così uno strumento interpretabile e standardizzato per la ricerca di marketing.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Il paper propone LIGRAM, un modello grafico gerarchico eterogeneo combinato con l'apprendimento contrastivo semantico, che supera le limitazioni delle classificazioni di testi brevi in coreano integrando le specifiche caratteristiche linguistiche della lingua agglutinante.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Il paper presenta MIND, un framework di apprendimento per rinforzo unificato che integra un banco di ragionamento psichiatrico basato su criteri clinici e meccanismi di ricompensa per migliorare l'accuratezza diagnostica, la qualità dell'interazione empatica e la coerenza delle indagini nelle consultazioni psichiatriche tramite modelli linguistici.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

← Precedente Successivo →