cs.CV artigos | Gist.Science

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

O artigo apresenta o FiNDR, um novo framework baseado em Grandes Modelos Multimodais (LMMs) aprimorados por raciocínio que alcança reconhecimento visual de categorias finas sem vocabulário pré-definido, superando os métodos existentes e demonstrando que a descoberta automática de nomes pode superar o uso de vocabulários humanos curados.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

O artigo apresenta o UniPath, um framework de geração de imagens patológicas orientado por semântica que supera as limitações atuais ao utilizar tokens semânticos diagnósticos e controle de protótipos para gerar imagens realistas e semanticamente precisas, apoiado por um novo corpus de dados e uma avaliação rigorosa.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

O artigo apresenta o WebGym, o maior ambiente open-source existente para treinar agentes visuais web em tarefas realistas, demonstrando que o uso de um sistema de rolagem assíncrona de alta eficiência e um conjunto de tarefas massivo e diversificado permite que um modelo de linguagem visual aberto (Qwen-3-VL-8B) supere modelos proprietários como GPT-4o e GPT-5-Thinking em tarefas em sites nunca vistos anteriormente.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

O artigo apresenta o ThinkRL-Edit, um framework de aprendizado por reforço focado em raciocínio que melhora a edição de imagens baseada em instruções ao desacoplar o raciocínio visual da síntese, introduzir amostragem baseada em Cadeia de Pensamento (CoT) para exploração de hipóteses semânticas e adotar estratégias de recompensa mais precisas e estáveis.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

O artigo apresenta o MERGETUNE, uma estratégia de ajuste fino contínuo baseada na conectividade linear de modos que, ao buscar um modelo intermediário com caminhos de baixa perda entre as soluções zero-shot e ajustada, recupera o conhecimento pré-treinado esquecido e melhora a generalização e robustez dos modelos de visão e linguagem sem necessidade de replay de dados ou alterações arquitetônicas.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

O artigo apresenta o Molmo2, uma nova família de modelos de linguagem e visão com pesos e dados abertos que alcança o estado da arte em compreensão de vídeo e capacidades de fundamentação (grounding) por meio de sete novos conjuntos de dados de vídeo e duas de múltiplas imagens, superando modelos proprietários e existentes em tarefas como apontamento, rastreamento e contagem.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

O artigo apresenta o LingBot-VLA, um modelo fundamental Vision-Language-Action (VLA) treinado com 20.000 horas de dados reais de robôs de dois braços, que supera concorrentes em generalização e eficiência computacional, enquanto disponibiliza código, modelo e dados de benchmark para promover o avanço da aprendizagem robótica.

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

Este artigo propõe o algoritmo LC-VLP, que utiliza curvas de Lamé como representação unificada para LEDs de formatos variados, permitindo uma estimativa de pose de câmera precisa e genérica em cenários heterogêneos, superando os métodos atuais e alcançando uma precisão posicional inferior a 4 cm.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

O artigo propõe o método VQ-Style, que utiliza VAEs com quantização vetorial residual e técnicas de aprendizado contrastivo para dissecar eficazmente o conteúdo e o estilo em dados de movimento humano, permitindo a transferência de estilo sem necessidade de ajuste fino.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

O OneVision-Encoder propõe um novo paradigma para a inteligência multimodal alinhado aos princípios de compressão de codecs, utilizando esparsidade baseada em "patch" para focar apenas nas regiões de alta entropia e demonstrar que eficiência e precisão são positivamente correlacionadas, superando modelos de visão estabelecidos em diversos benchmarks com menos recursos computacionais.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Este artigo apresenta o HLGFA, um framework de detecção de anomalias não supervisionada que alcança desempenho superior ao aprender a normalidade industrial através do alinhamento de características entre resoluções alta e baixa, utilizando priors estruturais e de detalhes para refinar representações e identificar defeitos como falhas nesse alinhamento.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

O artigo apresenta o GigaBrain-0.5M*, um modelo de visão-linguagem-ação que supera as limitações de previsão futura ao integrar aprendizado por reforço baseado em modelos de mundo (via o método RAMP), alcançando ganhos de desempenho de cerca de 30% em tarefas complexas e demonstrando execução robusta em cenários reais.

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

O artigo apresenta o PCReg-Net, um framework de registro de imagem deformável entre domínios heterogêneos que utiliza uma abordagem progressiva guiada por contraste para superar variações de aparência e alinhamento geométrico, alcançando alta precisão e inferência em tempo real com apenas 2,56 milhões de parâmetros.

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Este estudo apresenta uma avaliação sistemática em larga escala de modelos fundacionais de vídeo para a triagem remota da doença de Parkinson, demonstrando que a eficácia da arquitetura varia significativamente conforme a tarefa clínica específica e estabelecendo uma base rigorosa para o monitoramento neurológico remoto.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Este artigo propõe o framework Deferred Visual Ingestion (DVI), que supera as limitações das abordagens tradicionais de ingestão prévia em documentos técnicos visuais densos ao adiar o processamento por modelos de visão para a fase de inferência e utilizar um índice hierárquico automático baseado em estrutura, alcançando ganhos significativos de precisão em tarefas de perguntas e respostas.

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

Este artigo demonstra que é viável resolver o problema de estimativa de profundidade a partir de imagens desfocadas por meio de uma abordagem de otimização global baseada em minimização alternada, que combina otimização convexa e busca em grade paralela para superar as limitações de resolução dos métodos atuais de aprendizado profundo.

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Os autores propõem os "códigos latentes de Hadamard", uma representação latente compacta e aprendida que permite o renderização espectral eficiente utilizando operações RGB padrão, preservando exatamente a adição e o escalonamento enquanto aproxima a multiplicação espectral, reduzindo significativamente o custo computacional e o erro de cor em comparação com métodos tradicionais.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Este artigo propõe um quadro de análise de desentrelaçamento de cor da pele que, ao aprender um espaço latente estruturado a partir de imagens dermatológicas não rotuladas e empregar técnicas de descromatização aleatória e pós-processamento alinhado à geometria, permite a edição contrafactual e a normalização de cores para melhorar a equidade e o desempenho na classificação de lesões de pele em diversas tonalidades e condições de captura.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Este artigo apresenta o FUSAR-GPT, um modelo de linguagem visual especializado em imagens SAR que supera os limites atuais ao integrar características espaço-temporais, utilizar um modelo de base geoespacial como conhecimento prévio e empregar uma estratégia de ajuste fino em duas etapas, alcançando desempenho superior em benchmarks de interpretação remota.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

O artigo apresenta o DICArt, um novo framework que avança a estimativa de pose de objetos articulados em nível de categoria ao formular a tarefa como um processo de difusão discreta condicional, incorporando um decisor de fluxo flexível e uma estratégia de acoplamento cinemático hierárquico para superar as limitações dos métodos contínuos existentes.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

← Anterior Próximo →