LEDOM: Reverse Language Model
O artigo apresenta o LEDOM, um modelo de linguagem autoregressivo treinado exclusivamente da direita para a esquerda que desenvolve capacidades de raciocínio distintas e, ao combinar suas estimativas de probabilidade reversa com modelos forward através da técnica "Reverse Reward", reduz alucinações e alcança ganhos significativos em benchmarks de raciocínio matemático.