TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning
O artigo apresenta o TikArt, um agente multimodal que estabiliza o raciocínio visual de alta granularidade por meio de um ciclo de "Pensar-Apertura-Observar" e aprendizado por reforço, permitindo a aquisição sequencial de evidências em regiões de interesse para superar as limitações de codificação global de imagens.