Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

O artigo apresenta o FiNDR, um novo framework baseado em Grandes Modelos Multimodais (LMMs) aprimorados por raciocínio que alcança reconhecimento visual de categorias finas sem vocabulário pré-definido, superando os métodos existentes e demonstrando que a descoberta automática de nomes pode superar o uso de vocabulários humanos curados.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

O artigo apresenta o WebGym, o maior ambiente open-source existente para treinar agentes visuais web em tarefas realistas, demonstrando que o uso de um sistema de rolagem assíncrona de alta eficiência e um conjunto de tarefas massivo e diversificado permite que um modelo de linguagem visual aberto (Qwen-3-VL-8B) supere modelos proprietários como GPT-4o e GPT-5-Thinking em tarefas em sites nunca vistos anteriormente.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

O artigo apresenta o ThinkRL-Edit, um framework de aprendizado por reforço focado em raciocínio que melhora a edição de imagens baseada em instruções ao desacoplar o raciocínio visual da síntese, introduzir amostragem baseada em Cadeia de Pensamento (CoT) para exploração de hipóteses semânticas e adotar estratégias de recompensa mais precisas e estáveis.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

O artigo apresenta o MERGETUNE, uma estratégia de ajuste fino contínuo baseada na conectividade linear de modos que, ao buscar um modelo intermediário com caminhos de baixa perda entre as soluções zero-shot e ajustada, recupera o conhecimento pré-treinado esquecido e melhora a generalização e robustez dos modelos de visão e linguagem sem necessidade de replay de dados ou alterações arquitetônicas.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

O artigo apresenta o Molmo2, uma nova família de modelos de linguagem e visão com pesos e dados abertos que alcança o estado da arte em compreensão de vídeo e capacidades de fundamentação (grounding) por meio de sete novos conjuntos de dados de vídeo e duas de múltiplas imagens, superando modelos proprietários e existentes em tarefas como apontamento, rastreamento e contagem.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

O OneVision-Encoder propõe um novo paradigma para a inteligência multimodal alinhado aos princípios de compressão de codecs, utilizando esparsidade baseada em "patch" para focar apenas nas regiões de alta entropia e demonstrar que eficiência e precisão são positivamente correlacionadas, superando modelos de visão estabelecidos em diversos benchmarks com menos recursos computacionais.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Este artigo apresenta o HLGFA, um framework de detecção de anomalias não supervisionada que alcança desempenho superior ao aprender a normalidade industrial através do alinhamento de características entre resoluções alta e baixa, utilizando priors estruturais e de detalhes para refinar representações e identificar defeitos como falhas nesse alinhamento.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Este artigo propõe o framework Deferred Visual Ingestion (DVI), que supera as limitações das abordagens tradicionais de ingestão prévia em documentos técnicos visuais densos ao adiar o processamento por modelos de visão para a fase de inferência e utilizar um índice hierárquico automático baseado em estrutura, alcançando ganhos significativos de precisão em tarefas de perguntas e respostas.

Tao Xu2026-02-27💬 cs.CL

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Os autores propõem os "códigos latentes de Hadamard", uma representação latente compacta e aprendida que permite o renderização espectral eficiente utilizando operações RGB padrão, preservando exatamente a adição e o escalonamento enquanto aproxima a multiplicação espectral, reduzindo significativamente o custo computacional e o erro de cor em comparação com métodos tradicionais.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Este artigo propõe um quadro de análise de desentrelaçamento de cor da pele que, ao aprender um espaço latente estruturado a partir de imagens dermatológicas não rotuladas e empregar técnicas de descromatização aleatória e pós-processamento alinhado à geometria, permite a edição contrafactual e a normalização de cores para melhorar a equidade e o desempenho na classificação de lesões de pele em diversas tonalidades e condições de captura.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Este artigo apresenta o FUSAR-GPT, um modelo de linguagem visual especializado em imagens SAR que supera os limites atuais ao integrar características espaço-temporais, utilizar um modelo de base geoespacial como conhecimento prévio e empregar uma estratégia de ajuste fino em duas etapas, alcançando desempenho superior em benchmarks de interpretação remota.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

O artigo apresenta o DICArt, um novo framework que avança a estimativa de pose de objetos articulados em nível de categoria ao formular a tarefa como um processo de difusão discreta condicional, incorporando um decisor de fluxo flexível e uma estratégia de acoplamento cinemático hierárquico para superar as limitações dos métodos contínuos existentes.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI