R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning
Il paper presenta R1-Code-Interpreter, un modello LLM potenziato da un approccio di apprendimento curricolare multi-fase che combina fine-tuning supervisionato e rinforzato, permettendo di generare codice autonomamente e raggiungendo prestazioni superiori rispetto a GPT-4o su una vasta gamma di compiti di ragionamento e pianificazione.