LEDOM: Reverse Language Model
Die Arbeit stellt LEDOM vor, ein rein rechts-nach-links trainiertes Sprachmodell, das durch die Kombination von Vorwärts- und Rückwärts-Wahrscheinlichkeiten mittels „Reverse Reward" die Halluzination von Schlussfolgerungsketten reduziert und die Leistung in mathematischen Aufgaben signifikant verbessert.