Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment
Il paper presenta Agnostics, una pipeline di post-addestramento basata sul reinforcement learning che, valutando il codice esclusivamente tramite il suo comportamento osservabile esterno, permette di insegnare efficacemente a modelli linguistici di diverse dimensioni a programmare in lingue a risorse limitate senza richiedere infrastrutture specifiche per ogni linguaggio.