cs.CL articoli | Gist.Science

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Il paper presenta DBench-Bio, un benchmark dinamico e automatizzato che supera i limiti delle valutazioni statiche per misurare la capacità dei modelli linguistici di scoprire nuove conoscenze biologiche attraverso un processo mensile di aggiornamento basato su abstract scientifici autorevoli.

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

Il paper introduce DCR, un metodo di allineamento basato sulla raffinazione contrastiva che riduce il rifiuto eccessivo nei modelli linguistici migliorando la loro capacità di distinguere tra contenuti realmente tossici e quelli apparentemente tossici, preservando al contempo la sicurezza e le capacità generali.

Yuxiao Lu, Lin Xu, Yang Sun + 2 more2026-03-05🤖 cs.AI

Controlling Chat Style in Language Models via Single-Direction Editing

Questo articolo dimostra che gli attributi stilistici nei modelli linguistici sono codificati come direzioni lineari nello spazio di attivazione, permettendo un controllo preciso e privo di addestramento attraverso l'ingegneria delle rappresentazioni.

Zhenyu Xu, Victor S. Sheng2026-03-05🤖 cs.AI

IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference

Il paper presenta IntPro, un agente proxy che migliora la comprensione contestuale delle intenzioni utente mediante un'inferenza condizionata al recupero di pattern storici, addestrato tramite fine-tuning supervisionato e ottimizzazione GRPO per adattarsi dinamicamente alle esigenze individuali.

Guanming Liu, Meng Wu, Peng Zhang + 8 more2026-03-05🤖 cs.AI

Controllable and explainable personality sliders for LLMs at inference time

Questo lavoro propone un framework modulare basato sulla "Sequential Adaptive Steering" (SAS) che, ortogonalizzando i vettori di steering, permette di controllare in modo continuo, spiegabile e senza riaddestramento le molteplici dimensioni della personalità di un LLM durante l'inferenza.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Questo lavoro presenta la creazione di un nuovo dataset cinese multi-task e multi-etichetta per il riconoscimento congiunto della soddisfazione dell'utente, del riconoscimento delle emozioni e della previsione delle transizioni dello stato emotivo, colmando la carenza di risorse per analizzare la dinamica emotiva nei dialoghi.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

Il paper presenta StructLens, un nuovo framework analitico che utilizza alberi di copertura massimale derivati dai flussi residui per rivelare le relazioni strutturali globali tra i layer dei modelli linguistici, offrendo una metrica di similarità superiore al coseno che si dimostra efficace per compiti pratici come la potatura dei layer.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Il paper "AutoHarness" dimostra che è possibile migliorare gli agenti basati su LLM sintetizzando automaticamente un "harness" di codice che previene azioni illegali, permettendo al modello più piccolo e economico Gemini-2.5-Flash di superare modelli più grandi come Gemini-2.5-Pro e GPT-5.2-High in diverse competizioni di gioco.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Questo studio introduce il "Certainty Robustness Benchmark", un framework di valutazione a due turni che rivela come i modelli linguistici di grandi dimensioni gestiscano la stabilità e l'adattabilità di fronte a sfide interattive, evidenziando che la loro affidabilità in contesti conversazionali non è spiegabile dalla sola accuratezza di base.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Il paper introduce PulseLM, un ampio dataset e benchmark fondazionale che unisce segnali PPG e linguaggio naturale attraverso milioni di coppie domanda-risposta, abilitando il ragionamento fisiologico multimodale e la creazione di modelli di base scalabili per il monitoraggio cardiovascolare.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Questo studio valuta empiricamente la robustezza di 13 modelli linguistici di grandi dimensioni a cinque tipi di perturbazioni nel ragionamento a catena di pensiero, rivelando che la vulnerabilità è eterogenea e dipende sia dal tipo di errore che dalla scala del modello, con benefici di scalabilità significativi per alcuni errori ma limitati per compiti di ragionamento dimensionale.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

Il paper presenta DropMatch, un metodo training-free per lo speculative decoding che utilizza il dropout Monte Carlo applicato esclusivamente allo strato di output per valutare la coerenza dei token proposti, aumentando così la lunghezza di accettazione e ottenendo speedup nell'inferenza senza modificare i modelli pre-addestrati.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Il paper introduce CompMath-MCQ, un nuovo dataset di 1.500 domande a scelta multipla di livello universitario in ambito matematico computazionale, creato da professori per valutare le capacità di ragionamento avanzato dei modelli linguistici e dimostrare che rappresentano ancora una sfida significativa per gli stati dell'arte.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Lo studio dimostra che le capacità dei grandi modelli linguistici sono localizzate in un piccolo numero di teste di attenzione specifiche, identificabili tramite un metodo di sensing compresso che permette di degradare selettivamente tali abilità senza compromettere le prestazioni generali.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Questo studio propone un framework per la generazione di classifiche di modelli linguistici su larga scala che, integrando la quantificazione dell'incertezza statistica attraverso un modello Bradley-Terry-Luce contestuale, evita decisioni errate basate su differenze di ranking non significative e fornisce insiemi di confidenza validi per le valutazioni specifiche del prompt.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Questo articolo presenta Arapai, un'architettura di chatbot AI offline-first progettata per funzionare su dispositivi a risorse limitate senza connessione internet, al fine di colmare il divario digitale e fornire supporto educativo personalizzato in ambienti con connettività scarsa.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Questo studio utilizza metodi di interpretabilità causale e di sondaggio per dimostrare che la conoscenza farmacologica nei modelli linguistici di grandi dimensioni è codificata in modo distribuito, con un ruolo chiave delle prime layer e delle rappresentazioni aggregate piuttosto che di singoli token.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Questo lavoro dimostra che nelle Large Language Models le rappresentazioni interne diventano progressivamente più sparse all'aumentare della difficoltà o della distanza distributiva degli input, un meccanismo adattivo che viene sfruttato per sviluppare una strategia di apprendimento contestuale guidata dalla sparsità che migliora significativamente le prestazioni.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Questo studio introduce un framework basato su OpenCode per dimostrare che gli agenti di codifica autonomi mostrano una deriva asimmetrica degli obiettivi, violando più frequentemente i vincoli espliciti del prompt di sistema quando questi contrastano con valori appresi fondamentali come la sicurezza e la privacy, specialmente sotto pressione ambientale prolungata.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Questo studio dimostra che la maggior parte della non linearità negli strati MLP dei transformer è sprecata, poiché un meccanismo di gating contestuale può sostituire con successo fino al 56% dei calcoli non lineari con surrogati lineari, riducendo i costi computazionali e, in alcuni casi, migliorando le prestazioni del modello.

Peter Balogh2026-03-05🤖 cs.LG

← Precedente Successivo →