Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Questo studio propone un framework per la generazione di classifiche di modelli linguistici su larga scala che, integrando la quantificazione dell'incertezza statistica attraverso un modello Bradley-Terry-Luce contestuale, evita decisioni errate basate su differenze di ranking non significative e fornisce insiemi di confidenza validi per le valutazioni specifiche del prompt.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Questo lavoro dimostra che nelle Large Language Models le rappresentazioni interne diventano progressivamente più sparse all'aumentare della difficoltà o della distanza distributiva degli input, un meccanismo adattivo che viene sfruttato per sviluppare una strategia di apprendimento contestuale guidata dalla sparsità che migliora significativamente le prestazioni.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Questo studio dimostra che i modelli di ragionamento matematico all'avanguardia, pur ottenendo elevate percentuali di accuratezza, sono affetti da instabilità computazionale e fallimenti silenziosi, rivelando che la correttezza della risposta non garantisce la fedeltà del processo di ragionamento e che l'aumento delle dimensioni del modello non sempre si traduce in miglioramenti prestazionali.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Il paper introduce l'MMAI Gym for Science, un framework completo per addestrare modelli fondazionali liquidi (LFM) specializzati nella scoperta di farmaci, dimostrando che questi modelli più piccoli e mirati superano in efficienza e prestazioni i grandi modelli generici su compiti critici come l'ottimizzazione molecolare e la previsione delle proprietà ADMET.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Questo articolo presenta un blueprint pratico per valutare e ottimizzare gli assistenti alla spesa conversazionali multi-agente, introducendo un sistema di valutazione basato su LLM e due strategie di ottimizzazione dei prompt (Sub-agent GEPA e MAMuT GEPA) per migliorare le interazioni complesse e vincolate nel contesto della spesa alimentare.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Il paper presenta MIND, un framework di apprendimento per rinforzo unificato che integra un banco di ragionamento psichiatrico basato su criteri clinici e meccanismi di ricompensa per migliorare l'accuratezza diagnostica, la qualità dell'interazione empatica e la coerenza delle indagini nelle consultazioni psichiatriche tramite modelli linguistici.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI