cs.CL articoli | Gist.Science

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Questo studio dimostra che il trasferimento di apprendimento basato sull'iconicità tra lingue dei segni diverse (cinese-arabo e greco-fiammingo) migliora le prestazioni del riconoscimento, ottenendo incrementi rispettivamente del 7,02% e dell'1,07% grazie all'uso di Google MediaPipe, un MLP e un'unità ricorrente a cancellazione controllata.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Questo articolo presenta Retcon, una tecnica di prompting con pochi esempi progettata per garantire un controllo preciso a livello di turno nelle conversazioni con i modelli linguistici su larga scala, dimostrando prestazioni superiori rispetto ai metodi zero-shot e few-shot tradizionali.

David Kogan, Sam Nguyen, Masanori Suzuki + 1 more2026-03-05💬 cs.CL

Quantum-Inspired Self-Attention in a Large Language Model

Il paper propone l'integrazione di un meccanismo di auto-attenzione ispirato alla meccanica quantistica (QISA) nel modello linguistico autoregressivo GPT-1, dimostrando che, pur richiedendo un tempo di inferenza leggermente superiore, questo approccio supera significativamente l'auto-attenzione standard riducendo drasticamente il tasso di errore sui caratteri, sulle parole e la perdita di entropia incrociata.

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos2026-03-05⚛️ quant-ph

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

Questo studio propone un metodo automatizzato basato su autoencoder sparsi per scoprire concetti latenti nei giudizi dei modelli linguistici, rivelando bias sistematici rispetto alle valutazioni umane e permettendo un'analisi approfondita delle preferenze degli LLM senza dipendere da tassonomie predefinite.

James Wedgwood, Chhavi Yadav, Virginia Smith2026-03-05🤖 cs.AI

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

Questo articolo presenta un approccio neurosimbolico basato sulla teoria delle scienze sociali e sul ragionamento abduttivo che, estraendo automaticamente regole per guidare i modelli linguistici, riesce a trasformare con successo i testi da una narrativa collettivista a una individualista (e viceversa) mantenendo una fedeltà semantica superiore rispetto ai metodi zero-shot.

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following

Il paper presenta DIALEVAL, un framework basato sulla teoria dei tipi che utilizza agenti LLM duali per automatizzare la valutazione del rispetto delle istruzioni, ottenendo un'accuratezza del 90,38% e una correlazione superiore con il giudizio umano rispetto ai metodi esistenti.

Nardine Basta, Dali Kaafar2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Il paper presenta DBench-Bio, un benchmark dinamico e automatizzato che supera i limiti delle valutazioni statiche per misurare la capacità dei modelli linguistici di scoprire nuove conoscenze biologiche attraverso un processo mensile di aggiornamento basato su abstract scientifici autorevoli.

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

Il paper introduce DCR, un metodo di allineamento basato sulla raffinazione contrastiva che riduce il rifiuto eccessivo nei modelli linguistici migliorando la loro capacità di distinguere tra contenuti realmente tossici e quelli apparentemente tossici, preservando al contempo la sicurezza e le capacità generali.

Yuxiao Lu, Lin Xu, Yang Sun + 2 more2026-03-05🤖 cs.AI

Controlling Chat Style in Language Models via Single-Direction Editing

Questo articolo dimostra che gli attributi stilistici nei modelli linguistici sono codificati come direzioni lineari nello spazio di attivazione, permettendo un controllo preciso e privo di addestramento attraverso l'ingegneria delle rappresentazioni.

Zhenyu Xu, Victor S. Sheng2026-03-05🤖 cs.AI

IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference

Il paper presenta IntPro, un agente proxy che migliora la comprensione contestuale delle intenzioni utente mediante un'inferenza condizionata al recupero di pattern storici, addestrato tramite fine-tuning supervisionato e ottimizzazione GRPO per adattarsi dinamicamente alle esigenze individuali.

Guanming Liu, Meng Wu, Peng Zhang + 8 more2026-03-05🤖 cs.AI

Controllable and explainable personality sliders for LLMs at inference time

Questo lavoro propone un framework modulare basato sulla "Sequential Adaptive Steering" (SAS) che, ortogonalizzando i vettori di steering, permette di controllare in modo continuo, spiegabile e senza riaddestramento le molteplici dimensioni della personalità di un LLM durante l'inferenza.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Questo lavoro presenta la creazione di un nuovo dataset cinese multi-task e multi-etichetta per il riconoscimento congiunto della soddisfazione dell'utente, del riconoscimento delle emozioni e della previsione delle transizioni dello stato emotivo, colmando la carenza di risorse per analizzare la dinamica emotiva nei dialoghi.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

Il paper presenta StructLens, un nuovo framework analitico che utilizza alberi di copertura massimale derivati dai flussi residui per rivelare le relazioni strutturali globali tra i layer dei modelli linguistici, offrendo una metrica di similarità superiore al coseno che si dimostra efficace per compiti pratici come la potatura dei layer.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Il paper "AutoHarness" dimostra che è possibile migliorare gli agenti basati su LLM sintetizzando automaticamente un "harness" di codice che previene azioni illegali, permettendo al modello più piccolo e economico Gemini-2.5-Flash di superare modelli più grandi come Gemini-2.5-Pro e GPT-5.2-High in diverse competizioni di gioco.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Questo studio introduce il "Certainty Robustness Benchmark", un framework di valutazione a due turni che rivela come i modelli linguistici di grandi dimensioni gestiscano la stabilità e l'adattabilità di fronte a sfide interattive, evidenziando che la loro affidabilità in contesti conversazionali non è spiegabile dalla sola accuratezza di base.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Il paper introduce PulseLM, un ampio dataset e benchmark fondazionale che unisce segnali PPG e linguaggio naturale attraverso milioni di coppie domanda-risposta, abilitando il ragionamento fisiologico multimodale e la creazione di modelli di base scalabili per il monitoraggio cardiovascolare.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Questo studio valuta empiricamente la robustezza di 13 modelli linguistici di grandi dimensioni a cinque tipi di perturbazioni nel ragionamento a catena di pensiero, rivelando che la vulnerabilità è eterogenea e dipende sia dal tipo di errore che dalla scala del modello, con benefici di scalabilità significativi per alcuni errori ma limitati per compiti di ragionamento dimensionale.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

Il paper presenta DropMatch, un metodo training-free per lo speculative decoding che utilizza il dropout Monte Carlo applicato esclusivamente allo strato di output per valutare la coerenza dei token proposti, aumentando così la lunghezza di accettazione e ottenendo speedup nell'inferenza senza modificare i modelli pre-addestrati.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Il paper introduce CompMath-MCQ, un nuovo dataset di 1.500 domande a scelta multipla di livello universitario in ambito matematico computazionale, creato da professori per valutare le capacità di ragionamento avanzato dei modelli linguistici e dimostrare che rappresentano ancora una sfida significativa per gli stati dell'arte.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Lo studio dimostra che le capacità dei grandi modelli linguistici sono localizzate in un piccolo numero di teste di attenzione specifiche, identificabili tramite un metodo di sensing compresso che permette di degradare selettivamente tali abilità senza compromettere le prestazioni generali.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

← Precedente Successivo →