Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors
Il paper propone un framework di ragionamento basato su Permutation Relative Policy Optimization (PRPO) che, sfruttando l'invarianza alle permutazioni delle colonne come prior strutturale, attiva le capacità di ragionamento numerico dei modelli linguistici su dati tabellari, permettendo a un modello da 8B di superare significativamente modelli molto più grandi come DeepSeek-R1 in scenari zero-shot.