Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Questo studio valuta empiricamente la robustezza di 13 modelli linguistici di grandi dimensioni a cinque tipi di perturbazioni nel ragionamento a catena di pensiero, rivelando che la vulnerabilità è eterogenea e dipende sia dal tipo di errore che dalla scala del modello, con benefici di scalabilità significativi per alcuni errori ma limitati per compiti di ragionamento dimensionale.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Questo studio propone un framework per la generazione di classifiche di modelli linguistici su larga scala che, integrando la quantificazione dell'incertezza statistica attraverso un modello Bradley-Terry-Luce contestuale, evita decisioni errate basate su differenze di ranking non significative e fornisce insiemi di confidenza validi per le valutazioni specifiche del prompt.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Questo lavoro dimostra che nelle Large Language Models le rappresentazioni interne diventano progressivamente più sparse all'aumentare della difficoltà o della distanza distributiva degli input, un meccanismo adattivo che viene sfruttato per sviluppare una strategia di apprendimento contestuale guidata dalla sparsità che migliora significativamente le prestazioni.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI