DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
Das Paper stellt DeepEyes vor, ein Modell, das durch Reinforcement Learning ohne vorgeschaltete überwachte Feinabstimmung lernt, visuelle Informationen aktiv in seinen textbasierten Denkprozess zu integrieren, wodurch es die Leistung bei Wahrnehmungs-, Reasoning- und Halluzinationsaufgaben signifikant verbessert und menschliche visuelle Denkmuster nachahmt.