Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Este artigo apresenta o Spatial-DISE, um benchmark unificado e um conjunto de dados escaláveis baseados em uma taxonomia cognitiva que avalia a capacidade de raciocínio espacial de modelos de linguagem visuais, revelando uma lacuna significativa entre o desempenho atual das máquinas e a competência humana, especialmente em tarefas intrínsecas dinâmicas e multi-etapa.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

O artigo apresenta o UniGenBench++, um novo benchmark unificado e multilíngue para avaliação semântica de geração de imagens a partir de texto, que supera as limitações de diversidade e granularidade dos trabalhos existentes ao oferecer 600 prompts hierárquicos cobrindo 27 critérios de avaliação e um pipeline automatizado para testes robustos de modelos.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

O artigo apresenta o SpecAware, um modelo fundamental inovador que unifica a aprendizagem multi-sensorial em mapeamento de sensoriamento remoto hiperespectral através de uma arquitetura baseada em hiper-rede capaz de integrar atributos de sensores e conteúdo de imagem para superar a heterogeneidade dos dados, apoiado pelo novo conjunto de dados de pré-treinamento Hyper-400K.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

O artigo apresenta o VCFlow, uma nova arquitetura de decodificação visual inspirada no processamento cognitivo humano que, ao modelar as vias ventral e dorsal do cérebro e utilizar aprendizado contrastivo, permite reconstruir experiências visuais contínuas a partir de fMRI em novos sujeitos sem necessidade de treinamento específico, oferecendo uma solução rápida e escalável para aplicações clínicas.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Este artigo apresenta o primeiro método de detecção de mudanças de cena online que é agnóstico à pose, livre de rótulos e garante consistência multivista, superando abordagens offline existentes ao atingir mais de 10 FPS através de uma nova perda de fusão auto-supervisionada, estimativa de pose rápida baseada em PnP e uma estratégia de atualização guiada por mudanças para a representação de cena com Splatting Gaussiano 3D.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

O artigo apresenta o KeyTailor, um novo framework que melhora a virtualização de roupas em vídeos através de uma estratégia de injeção de detalhes orientada a quadros-chave para preservar a dinâmica das roupas e a integridade do fundo, acompanhado pelo conjunto de dados ViT-HD de alta definição para superar as limitações atuais em fidelidade e eficiência computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

O artigo apresenta o CogFlow, um novo framework de três estágios inspirado na cognição humana que supera as limitações atuais na resolução de problemas matemáticos visuais ao integrar explicitamente a percepção, a internalização de conhecimento e o raciocínio, utilizando recompensas visuais sinérgicas, um modelo de recompensa para internalização e otimização de política com portão visual, apoiado pelo novo conjunto de dados MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Este artigo propõe a rede neural THz-SSDD, baseada em Análise de Componentes Principais (PCA) e aprendizado auto-supervisionado, para realizar simultaneamente a remoção de ruído e o desembaçamento de imagens terahertz, superando as limitações das técnicas convencionais sem a necessidade de dados rotulados ou intervenção manual.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

O artigo apresenta o CER-HV, um quadro de trabalho com intervenção humana que combina deteção de ruído baseada em CER e verificação humana para identificar e limpar erros em conjuntos de dados de reconhecimento de texto manuscrito em escrita árabe, demonstrando melhorias significativas na precisão e estabelecendo novos baselines de desempenho.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs