PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment
Il paper presenta PaLMR, un framework che allinea il processo di ragionamento multimodale attraverso dati percettivamente coerenti e una funzione di ricompensa gerarchica, riducendo le allucinazioni visive e migliorando l'affidabilità dei modelli senza comprometterne le prestazioni.