Ranking Reasoning LLMs under Test-Time Scaling
Dit paper introduceert Scorio, een open-source bibliotheek die statistische methoden biedt voor het betrouwbaar rangschikken van redeneer-LLMs onder test-time scaling, waarbij wordt aangetoond dat bepaalde technieken zelfs bij beperkte trial-aantallen nauwkeurige rankings genereren.