MIRA: Multimodal Iterative Reasoning Agent for Image Editing
Il paper presenta MIRA, un agente multimodale di ragionamento iterativo che migliora l'editing delle immagini guidato da istruzioni complesse attraverso un ciclo di percezione, ragionamento e azione, ottenendo risultati competitivi rispetto ai sistemi proprietari.