FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

Il paper presenta FAPO, un metodo di ottimizzazione della politica che, grazie a un modello di ricompensa generativo, penalizza dinamicamente i rollout con ragionamenti difettosi ma corretti nel risultato, permettendo ai modelli linguistici di sfruttare inizialmente queste scorciatoie per guadagni rapidi per poi affinare gradualmente la loro affidabilità logica senza aumentare il budget di token.

Yuyang Ding, Chi Zhang, Juntao Li + 2 more2026-03-02🤖 cs.LG

Steering Language Models with Weight Arithmetic

Il paper propone il "contrastive weight steering", un metodo post-addestramento che modifica i parametri dei modelli linguistici attraverso operazioni aritmetiche sui pesi per isolare e controllare direzioni comportamentali specifiche, permettendo di mitigare fenomeni come la sycophancy o di rilevare misallineamenti emergenti con una generalizzazione superiore rispetto alle tecniche di steering basate sulle attivazioni.

Constanza Fierro, Fabien Roger2026-03-02💬 cs.CL

Structure tensor Reynolds-averaged Navier-Stokes turbulence models with equivariant neural networks

Il paper dimostra che l'uso di reti neurali equivarianti basate sui tensori di struttura di Kassinos per le chiusure RANS valida l'ipotesi secondo cui una descrizione statistica più ricca migliora drasticamente l'accuratezza del termine di correlazione pressione-deformazione rapido, offrendo un'alternativa fisicamente coerente ai modelli classici.

Aaron Miller, Sahil Kommalapati, Robert Moser + 1 more2026-03-02🤖 cs.LG

An operator splitting analysis of Wasserstein--Fisher--Rao gradient flows

Questo studio analizza l'impatto dell'ordine di splitting degli operatori nei flussi gradiente di Wasserstein-Fisher-Rao, dimostrando che una scelta appropriata della dimensione del passo e della sequenza operativa può garantire una convergenza alla distribuzione target più rapida rispetto al flusso WFR esatto, fornendo inoltre nuove formule variazionali e il primo limite di decadimento preciso per tali flussi.

Francesca Romana Crucinio, Sahani Pathiraja2026-03-02📊 stat