Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Deze studie toont aan dat Reinforcement Fine-Tuning (RFT) multimodale taalmodellen beter in staat stelt om voorkennis te behouden dan Supervised Fine-Tuning (SFT), omdat RFT voornamelijk correcte steekproeven versterkt die beter aansluiten bij het bestaande waarschijnlijkheidslandschap, waardoor de negatieve impact van trainingsdata op eerder geleerde kennis wordt geminimaliseerd.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs