Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion
Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.