Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors
Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.