cs.CV artigos | Gist.Science

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

O artigo apresenta o VisioMath, um novo benchmark de 1.800 problemas matemáticos do ensino fundamental e médio que avaliam a capacidade de raciocínio comparativo de Modelos Multimodais Grandes (LMMs) ao distinguir diagramas visualmente similares, revelando que falhas frequentes decorrem de desalinhamento entre imagem e texto e demonstrando que estratégias de alinhamento podem melhorar significativamente o desempenho desses modelos.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

O artigo apresenta o VisualPrompter, um framework de engenharia de prompts sem treinamento que utiliza um módulo de auto-reflexão visual e otimização semântica granular para alinhar melhor as imagens geradas com as descrições do usuário, alcançando desempenho de ponta em benchmarks de alinhamento texto-imagem.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

O artigo propõe o SPoT, uma estratégia inovadora de tokenização que posiciona tokens continuamente dentro das imagens, superando as limitações das grades discretas e permitindo que os Vision Transformers explorem regimes de esparsidade para obter ganhos significativos de desempenho e eficiência.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

O artigo apresenta o SPARC, um novo framework que utiliza autoencoders esparsos alinhados para criar um espaço latente unificado e compartilhado entre diferentes arquiteturas e modalidades de IA, permitindo a comparação direta de conceitos de alto nível e habilitando aplicações como localização espacial guiada por texto e recuperação cruzada.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

O artigo apresenta o Token Bottleneck (ToBo), um pipeline de aprendizado auto-supervisionado que comprime cenas dinâmicas em um único token compacto para prever cenas subsequentes, demonstrando superioridade em tarefas de compreensão sequencial como rastreamento visual e manipulação robótica tanto em ambientes simulados quanto no mundo real.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

O artigo apresenta o NarrLV, o primeiro benchmark abrangente para avaliar a capacidade de expressão narrativa em modelos de geração de vídeos longos, introduzindo o conceito de "Temporal Narrative Atom" e uma métrica baseada em MLLM que supera as limitações dos benchmarks atuais ao alinhar-se com julgamentos humanos.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

O artigo apresenta o TomatoMAP, um dataset abrangente de imagens de tomate com anotações detalhadas e protocolos padronizados, validado por um framework de aprendizado profundo que demonstra desempenho comparável a especialistas humanos na fenotipagem de precisão.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

O artigo apresenta o ExDD, um novo framework para detecção de defeitos industriais que supera as limitações dos paradigmas de uma única classe ao modelar explicitamente distribuições duplas de características e utilizar modelos de difusão latente para gerar defeitos sintéticos, alcançando desempenho superior no conjunto de dados KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

O artigo propõe o GSSR, um método que otimiza a distribuição e o alinhamento de Gaussians individuais em uma superfície latente por meio de regularização de opacidade e reinicialização guiada, superando as limitações geométricas do 3DGS tradicional para permitir reconstruções mais precisas e edição de cena intuitiva.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabalho apresenta um sistema multiagente baseado em modelos de linguagem grandes multimodais (MLLM) que supera significativamente o estado da arte na extração automática e robusta de informações químicas complexas de gráficos e textos da literatura, facilitando a construção de bancos de dados estruturados para impulsionar a pesquisa química orientada por IA.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

O artigo propõe o método MAP, uma técnica de decodificação sem treinamento que mitiga alucinações em Modelos de Linguagem e Visão Grandes ao interpretar os estados ocultos como mapas semânticos 2D e aplicar operações de atenção em nível de mapa para melhorar a consistência factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

O artigo apresenta o SGDFuse, um modelo de difusão condicional guiado pelo Segment Anything Model (SAM) que utiliza máscaras semânticas como priores explícitos para realizar a fusão de imagens infravermelhas e visíveis com alta fidelidade, preservando alvos-chave e melhorando o desempenho em tarefas visuais subsequentes.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

O artigo apresenta os "campos de especialistas multivariados", um novo framework para aprendizado de priors de imagem que generaliza métodos existentes através de funções potenciais multivariadas, oferecendo reconstrução superior em diversos problemas inversos com maior velocidade, menor complexidade e garantias teóricas de convergência em comparação a modelos univariados e de aprendizado profundo.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

O artigo apresenta o DianJin-OCR-R1, um modelo de linguagem visual aprimorado por raciocínio que combina capacidades próprias de OCR com ferramentas especializadas em um paradigma intercalado para reduzir alucinações e melhorar a precisão na compreensão de documentos.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

O artigo propõe o SSL-SLR, um framework de aprendizado auto-supervisionado para reconhecimento de língua de sinais que supera as limitações dos métodos contrastivos tradicionais ao introduzir pares negativos livres e uma nova técnica de aumento de dados, resultando em representações mais discriminativas e desempenho superior em diversas tarefas.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

O artigo apresenta o RED, uma rede de desembaçamento de movimento guiada por eventos que utiliza uma estratégia de perturbação robusta e um mecanismo de desentrelaçamento específico de modalidades para superar a subnotificação de eventos e alcançar desempenho superior em condições reais.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

O artigo propõe o Kernel VICReg, um novo framework de aprendizado auto-supervisionado que leva o objetivo VICReg para um Espaço de Hilbert de Reprodutor de Kernel (RKHS) para capturar dependências não lineares e melhorar a representação de dados sem rótulos, demonstrando ganhos consistentes sobre métodos euclidianos em diversos conjuntos de dados.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

O artigo apresenta o C²Prompt, um novo método para aprendizado contínuo federado que mitiga o esquecimento temporal e espacial ao aprimorar a coerência do conhecimento entre classes por meio de um mecanismo de compensação de distribuição local e um esquema de agregação de prompts consciente das classes, alcançando desempenho superior em diversos benchmarks.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Este trabalho propõe uma abordagem baseada em visão para exploração semântica orientada a decisões em robôs com pernas, que utiliza arbitragem de evidências semânticas calibradas por confiança, memória topológica de crescimento controlado e seleção de subobjetivos baseada em utilidade semântica para transformar observações ruidosas em decisões de exploração estáveis e executáveis sem depender de reconstrução geométrica densa.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

← Anterior Próximo →