LEDOM: Reverse Language Model
Dit paper introduceert LEDOM, een open-source taalmodel dat van rechts naar links wordt getraind en unieke redeneerpatronen ontwikkelt die, wanneer gecombineerd met een standaard model via een 'Reverse Reward'-mechanisme, de prestaties op wiskundige taken aanzienlijk verbeteren door hallucinaties te straffen.