Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Questo studio valuta empiricamente la robustezza di 13 modelli linguistici di grandi dimensioni a cinque tipi di perturbazioni nel ragionamento a catena di pensiero, rivelando che la vulnerabilità è eterogenea e dipende sia dal tipo di errore che dalla scala del modello, con benefici di scalabilità significativi per alcuni errori ma limitati per compiti di ragionamento dimensionale.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Questo studio propone un framework per la generazione di classifiche di modelli linguistici su larga scala che, integrando la quantificazione dell'incertezza statistica attraverso un modello Bradley-Terry-Luce contestuale, evita decisioni errate basate su differenze di ranking non significative e fornisce insiemi di confidenza validi per le valutazioni specifiche del prompt.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Questo lavoro dimostra che nelle Large Language Models le rappresentazioni interne diventano progressivamente più sparse all'aumentare della difficoltà o della distanza distributiva degli input, un meccanismo adattivo che viene sfruttato per sviluppare una strategia di apprendimento contestuale guidata dalla sparsità che migliora significativamente le prestazioni.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Questo studio dimostra che i modelli di ragionamento matematico all'avanguardia, pur ottenendo elevate percentuali di accuratezza, sono affetti da instabilità computazionale e fallimenti silenziosi, rivelando che la correttezza della risposta non garantisce la fedeltà del processo di ragionamento e che l'aumento delle dimensioni del modello non sempre si traduce in miglioramenti prestazionali.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI