HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation
Dit paper introduceert HEAL, een RL-vrij raamwerk dat het 'lerend vermogen' van kleinere modellen verbetert door middel van een curriculum dat gebaseerd is op de Zone van de Naaste Ontwikkeling en gebruikmaakt van entropy-gestuurde herstelmechanismen om de beperkingen van traditionele distillatie te overwinnen.