Fibration Policy Optimization
Este artigo apresenta o Fibration Policy Optimization (FiberPO), um novo quadro teórico e prático que unifica o controle de estabilidade em múltiplas escalas para modelos de linguagem grandes, combinando uma reformulação exata de objetivos de confiança com uma estrutura algébrica de fibrados para otimizar a eficiência e a estabilidade do treinamento em sistemas heterogêneos.