BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Lo studio BeamPERL dimostra che, sebbene il rinforzo con ricompense verificabili migliori le prestazioni di modelli linguistici compatti nella meccanica delle travi, induce un adattamento anisotropo basato su template procedurali piuttosto che su una vera comprensione fisica, evidenziando la necessità di affiancare tali ricompense a scaffolding strutturato per garantire un ragionamento scientifico robusto.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Il paper presenta VietNormalizer, una libreria Python open-source e priva di dipendenze esterne progettata per normalizzare il testo vietnamito convertendo numeri, date, valute, percentuali, acronimi e prestiti linguistici in forme pronunciate, colmando così le lacune degli strumenti esistenti per applicazioni di sintesi vocale e elaborazione del linguaggio naturale.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Questo studio valuta come undici grandi modelli linguistici gestiscono i compromessi relativi ai diritti umani, rivelando bias sistematici che portano a una maggiore accettazione delle limitazioni ai diritti economici e sociali rispetto a quelli civili e politici, con significative variazioni linguistiche e una forte suscettibilità alla manipolazione tramite prompt.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Lo studio dimostra che i miglioramenti nei benchmark di RAG multilingue e visivamente ricchi sono guidati principalmente da una migliore rappresentazione del documento piuttosto che da algoritmi di recupero avanzati, suggerendo la necessità di valutare separatamente le capacità di trascrizione e recupero per attribuire correttamente i progressi.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Il paper presenta Memex, un meccanismo di memoria indicizzata che supera i limiti delle finestre contestuali negli agenti LLM a lungo termine archiviando interazioni complete in un database esterno e utilizzando un framework di apprendimento per rinforzo (MemexRL) per ottimizzare dinamicamente la sintesi, l'indicizzazione e il recupero selettivo delle informazioni, garantendo così una memoria a lungo termine meno lossiva e un contesto di lavoro più compatto.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Questo articolo di posizione sostiene che i fornitori di modelli linguistici di grandi dimensioni dovrebbero esporre input di prompt vettoriali come interfaccia pubblica per la personalizzazione, poiché offrono un controllo più stabile e scalabile rispetto ai prompt testuali, specialmente in scenari di deployment che richiedono personalizzazione solo durante l'inferenza.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed 💬 cs.CL

V1V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Il paper presenta V1V_1, un framework che unifica generazione e verifica tramite ranking a coppie, introducendo un algoritmo di inferenza guidato dall'incertezza e un metodo di apprendimento per rinforzo congiunto che migliorano significativamente l'efficienza e le prestazioni nei compiti di ragionamento complesso rispetto alle tecniche di verifica puntuali esistenti.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

ττ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Il paper introduce τ\tau-Knowledge, un nuovo benchmark che valuta le capacità degli agenti conversazionali di integrare conoscenze non strutturate e strumenti in scenari realistici come il supporto bancario, rivelando che anche i modelli all'avanguardia faticano a recuperare documenti pertinenti e applicare politiche complesse con un tasso di successo di circa il 25,5%.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI