DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning
Het paper introduceert DiSCTT, een difficulty-aware en consensus-gestuurd zelf-curriculumkader voor testtijdadaptatie dat door dynamisch te kiezen tussen supervisie en versterkingslering op basis van instantspecifieke onzekerheid, de redeneerprestaties van grote taalmodellen aanzienlijk verbetert met minder rekenkracht en hogere stabiliteit.