Recursive Think-Answer Process for LLMs and VLMs
Die Arbeit stellt den effizienten rekursiven Think-Answer-Prozess (R-TAP) vor, der durch einen Konfidenzgenerator und spezifische Belohnungssignale iterative Reasoning-Zyklen ermöglicht, um die Genauigkeit und Stabilität von LLMs und VLMs im Vergleich zu herkömmlichen Single-Pass-Methoden signifikant zu verbessern.