cs.CL articoli | Gist.Science

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Il paper introduce FINEST, una tassonomia di valutazione granulare per le risposte dei modelli linguistici su temi sensibili, che dimostra come un processo di miglioramento guidato da punteggi e giustificazioni specifici per categoria riduca significativamente gli errori, migliorando al contempo sicurezza e utilità.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Lo studio BeamPERL dimostra che, sebbene il rinforzo con ricompense verificabili migliori le prestazioni di modelli linguistici compatti nella meccanica delle travi, induce un adattamento anisotropo basato su template procedurali piuttosto che su una vera comprensione fisica, evidenziando la necessità di affiancare tali ricompense a scaffolding strutturato per garantire un ragionamento scientifico robusto.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Il paper presenta VietNormalizer, una libreria Python open-source e priva di dipendenze esterne progettata per normalizzare il testo vietnamito convertendo numeri, date, valute, percentuali, acronimi e prestiti linguistici in forme pronunciate, colmando così le lacune degli strumenti esistenti per applicazioni di sintesi vocale e elaborazione del linguaggio naturale.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Lo studio analizza le competenze sociali di 17 modelli linguistici di grandi dimensioni attraverso il Test della Falsa Credenza, rivelando che l'esplicitazione degli stati mentali genera un effetto di inversione nelle risposte che emerge durante il pre-addestramento e può essere isolato causalmente tramite l'orientamento vettoriale.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Il paper presenta DCAN, una rete di attribuzione che disentangola le informazioni semantiche da quelle stilistiche per identificare con successo quale specifico modello LLM ha generato un frammento di codice, supportato da un nuovo dataset su larga scala per la valutazione.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Questo studio valuta come undici grandi modelli linguistici gestiscono i compromessi relativi ai diritti umani, rivelando bias sistematici che portano a una maggiore accettazione delle limitazioni ai diritti economici e sociali rispetto a quelli civili e politici, con significative variazioni linguistiche e una forte suscettibilità alla manipolazione tramite prompt.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Lo studio dimostra che i miglioramenti nei benchmark di RAG multilingue e visivamente ricchi sono guidati principalmente da una migliore rappresentazione del documento piuttosto che da algoritmi di recupero avanzati, suggerendo la necessità di valutare separatamente le capacità di trascrizione e recupero per attribuire correttamente i progressi.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Il paper presenta Memex, un meccanismo di memoria indicizzata che supera i limiti delle finestre contestuali negli agenti LLM a lungo termine archiviando interazioni complete in un database esterno e utilizzando un framework di apprendimento per rinforzo (MemexRL) per ottimizzare dinamicamente la sintesi, l'indicizzazione e il recupero selettivo delle informazioni, garantendo così una memoria a lungo termine meno lossiva e un contesto di lavoro più compatto.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

Questo articolo propone una pipeline per estrarre relazioni causali dai grandi modelli linguistici campionando documenti, estraendo ed aggregando eventi in variabili canoniche, e applicando metodi di scoperta causale per generare un insieme ispezionabile di ipotesi causali plausibili, pur senza garantire la causalità nel mondo reale.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Questo articolo di posizione sostiene che i fornitori di modelli linguistici di grandi dimensioni dovrebbero esporre input di prompt vettoriali come interfaccia pubblica per la personalizzazione, poiché offrono un controllo più stabile e scalabile rispetto ai prompt testuali, specialmente in scenari di deployment che richiedono personalizzazione solo durante l'inferenza.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Questo studio esamina come i grandi modelli linguistici reagiscono alle tratti della Triade Oscura negli input degli utenti, rivelando che, sebbene tendano prevalentemente a correggere tali comportamenti, mostrano talvolta un rafforzamento dannoso a seconda della gravità e del modello specifico, sottolineando la necessità di sistemi conversazionali più sicuri.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

Il paper presenta $V_1$ , un framework che unifica generazione e verifica tramite ranking a coppie, introducendo un algoritmo di inferenza guidato dall'incertezza e un metodo di apprendimento per rinforzo congiunto che migliorano significativamente l'efficienza e le prestazioni nei compiti di ragionamento complesso rispetto alle tecniche di verifica puntuali esistenti.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Questo studio dimostra che la capacità di recuperare informazioni spaziali e temporali tramite sonde lineari non prova necessariamente l'esistenza di modelli interni del mondo nei LLM, poiché strutture simili sono già presenti nelle statistiche di co-occorrenza dei semplici embedding statici.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Il sistema AILS-NTUA, vincitore del SemEval-2026 Task 12 con un'accuratezza del 95%, combina recupero basato su grafi, ragionamento abductivo guidato da LLM e ottimizzazione dei prompt per identificare e analizzare tre bias induttivi sistematici nel ragionamento causale multi-etichetta.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Il paper presenta Pointer-CAD, un nuovo framework basato su LLM che unifica la rappresentazione B-Rep e le sequenze di comandi tramite una selezione di entità geometriche basata su puntatori, risolvendo così le limitazioni nella generazione di modelli CAD complessi e riducendo gli errori topologici derivanti dalla discretizzazione.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Il paper propone il framework DMAST, un metodo di addestramento avversario multi-stadio e dual-modale che formalizza l'interazione agente-attaccante come un gioco a somma zero per rafforzare la sicurezza e l'efficienza degli agenti web multimodali contro attacchi cross-modali coerenti.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Il paper introduce $\tau$ -Knowledge, un nuovo benchmark che valuta le capacità degli agenti conversazionali di integrare conoscenze non strutturate e strumenti in scenari realistici come il supporto bancario, rivelando che anche i modelli all'avanguardia faticano a recuperare documenti pertinenti e applicare politiche complesse con un tasso di successo di circa il 25,5%.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Il paper introduce TaxonRL, un approccio di apprendimento per rinforzo che utilizza ricompense intermedie per decomporre il ragionamento visivo in livelli tassonomici gerarchici, ottenendo così un'accuratezza superiore all'uomo e una maggiore interpretabilità nella classificazione di specie visivamente simili.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Questo articolo esamina come le tecnologie di traduzione automatica ridurranno le barriere linguistiche negli scambi globali, pur creando nuove sfide diseguali per la diffusione delle idee, l'innovazione e la crescita economica.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Questo articolo introduce i "Thought Flow Nets", un metodo ispirato alla dialettica hegeliana che permette ai modelli di generare una sequenza di pensieri auto-correttivi per migliorare le prestazioni nelle risposte a domande e la percezione umana rispetto alle previsioni tradizionali a output singolo.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

← Precedente Successivo →

cs.CL