Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models

Questo lavoro analizza teoricamente e verifica sperimentalmente come la qualità e la scala dei dati influenzino diversamente l'addestramento pre- e post-training dei modelli linguistici, dimostrando che il fine-tuning supervisionato beneficia di piccoli set di esempi difficili mentre il reinforcement learning richiede grandi volumi di dati meno complessi.

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni2026-03-03📊 stat

I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift

Lo studio rivela che i classificatori di sicurezza addestrati su embedding fissi subiscono un collasso catastrofico a causa della deriva delle rappresentazioni nei modelli di ragionamento istruiti, generando fallimenti silenziosi ad alta confidenza e rendendo paradossalmente più difficile proteggere i sistemi allineati rispetto a quelli di base.

Subramanyam Sahoo, Vinija Jain, Divya Chaudhary + 1 more2026-03-03💬 cs.CL

Nonconvex Latent Optimally Partitioned Block-Sparse Recovery via Log-Sum and Minimax Concave Penalties

Il paper propone due nuovi metodi di regolarizzazione non convessa, LogLOP-l2/l1 e AdaLOP-l1/l2, basati su formulazioni variazionali delle penalità log-sum e MCP per il recupero di segnali blocchi-sparsi con partizioni sconosciute, sviluppando algoritmi ADMM efficienti che superano gli approcci esistenti in termini di accuratezza e compatibilità con diverse funzioni di fedeltà ai dati.

Takanobu Furuhashi, Hiroki Kuroda, Masahiro Yukawa + 3 more2026-03-03📊 stat

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Il paper introduce "Truth as a Trajectory" (TaT), un metodo che analizza le variazioni geometriche degli stati nascosti tra i livelli dei modelli linguistici invece delle attivazioni statiche, permettendo di distinguere il ragionamento valido dai comportamenti spurii e superando i limiti dei metodi di spiegabilità tradizionali.

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad + 3 more2026-03-03💬 cs.CL

Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

Questo lavoro propone un quadro teorico e pratico per stimare gli effetti causali specifici sugli esseri umani in sistemi interagenti con l'IA, dove né i tipi di unità né la rete di interazione sono osservabili, sfruttando una conoscenza a priori della composizione della popolazione e un framework di passaggio di messaggi causali per identificare gli effetti attraverso subpopolazioni aggregate.

William Overman, Sadegh Shirani, Mohsen Bayati2026-03-03📊 stat

Constructing Synthetic Instruction Datasets for Improving Reasoning in Domain-Specific LLMs: A Case Study in the Japanese Financial Domain

Questo studio presenta un metodo generale per costruire dataset di istruzioni sintetiche di alta qualità partendo dal vocabolario specifico di un settore, dimostrando nel dominio finanziario giapponese come l'uso di tracce di ragionamento (Chain-of-Thought) su larga scala migliori le capacità di ragionamento dei modelli linguistici, con risorse ora open-source.

Yuma Okochi, Fabio Milentiansen Sim, Tomoyasu Okada2026-03-03💬 cs.CL

Align and Filter: Improving Performance in Asynchronous On-Policy RL

Il paper propone il metodo TACPO, basato su vincoli di ottimizzazione della politica allineati al vantaggio tramite variazione totale, per mitigare il ritardo della politica (policy lag) nei sistemi di apprendimento per rinforzo on-policy distribuiti e ad alta frequenza di aggiornamento, migliorando così le prestazioni sia in compiti classici che nel ragionamento matematico con LLM.

Homayoun Honari, Roger Creus Castanyer, Michael Przystupa + 3 more2026-03-03⚡ eess