cs.CV artigos | Gist.Science

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

O artigo apresenta o FusionRegister, um método geral e eficiente que utiliza priores visuais para realizar o registro cruzado entre imagens infravermelhas e visíveis diretamente no resultado da fusão, garantindo robustez, alinhamento detalhado e compatibilidade com diversas técnicas de fusão existentes.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

O artigo apresenta o UniUncer, um framework unificado e leve que melhora a confiabilidade da direção de ponta a ponta ao estimar e integrar incertezas tanto de elementos estáticos quanto dinâmicos, resultando em ganhos significativos de precisão e desempenho em cenários desafiadores.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

O artigo apresenta o FrameVGGT, um framework de memória explícita orientado a quadros que supera as limitações de crescimento ilimitado de cache em transformadores de geometria visual de streaming, substituindo a retenção de tokens individuais por blocos de evidência coesos para manter uma precisão geométrica estável sob orçamentos de memória fixos.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

O artigo apresenta o RoboPCA, um framework de aprendizado de affordance centrado na pose que prevê conjuntamente regiões de contato e poses adequadas para manipulação robótica, utilizando o pipeline Human2Afford para gerar automaticamente anotações a partir de demonstrações humanas e demonstrando superioridade em relação a métodos existentes em diversos cenários.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Este artigo apresenta o CDA-VSR, uma rede de super-resolução de vídeo online que utiliza informações do domínio comprimido, como vetores de movimento e mapas de resíduos, para alcançar uma melhoria significativa na velocidade de inferência e na qualidade de reconstrução em comparação com métodos existentes.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

O artigo apresenta o MMDM, um modelo de difusão baseado em autoencoder que utiliza o mecanismo de Agregação de Atenção Cinemática para aprender priores de movimento adaptativos ao contexto, permitindo a reconstrução robusta e eficiente de dados de movimento incompletos ou ruidosos em tarefas como refinamento, preenchimento e interpolação.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

O artigo apresenta o TDM-R1, uma nova abordagem de aprendizado por reforço que permite otimizar modelos generativos de poucos passos com recompensas não diferenciáveis, superando os métodos existentes e alcançando desempenho de ponta em diversas tarefas de geração de imagens.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

O artigo apresenta o PARSE, um framework que modela relações espaciais em nível de partes de objetos através de um grafo de montagem centrado em partes (PAG), permitindo a geração de cenas 3D fisicamente consistentes e melhorando o raciocínio espacial de modelos de visão-linguagem por meio do dataset PARSE-10K.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

O artigo apresenta o 3ViewSense, um novo framework que supera a lacuna de inteligência espacial em Modelos Visão-Linguagem ao utilizar um mecanismo de "Simular e Raciocinar" baseado em vistas ortográficas para construir representações mentais 3D coerentes a partir de observações 2D.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

O artigo propõe o AR2-4FV, um método inovador para o rastreamento de longo prazo em vídeos de visão fixa que utiliza um Banco de Âncoras derivado de estruturas de fundo estáticas e mecanismos de reidentificação para manter a continuidade do alvo mesmo durante longos períodos de oclusão ou ausência, superando significativamente as abordagens existentes em taxas de recaptura e latência.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

O artigo apresenta o DECADE, um modelo de difusão não supervisionado e temporalmente consistente que melhora a qualidade e a precisão quantitativa das imagens dinâmicas de PET cardíaco com Rb-82, superando as limitações de ruído e a falta de dados de treinamento pareados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

O artigo apresenta o MedQ-Deg, um novo benchmark abrangente que avalia a robustez e a calibração de confiança de modelos de linguagem multimodal grandes (MLLMs) médicos frente a 18 tipos de degradação de imagem, revelando que, embora o desempenho caia com a severidade das falhas, os modelos mantêm uma confiança excessivamente alta, exibindo um efeito Dunning-Kruger artificial.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

O artigo propõe o framework GK-FedDKD, que utiliza conhecimento geométrico global e destilação de conhecimento dual para superar os desafios de heterogeneidade de dados no aprendizado federado aplicado à análise de imagens de satélite de sensoriamento remoto, alcançando desempenho superior ao estado da arte.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Este artigo propõe um método de transferência de estilo que representa a imagem no domínio dos pinceladas em vez do domínio de pixels, resultando em uma representação visual mais natural e fiel à arte real.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

O artigo apresenta o OrdinalBench, um novo conjunto de dados de benchmark com 39.000 pares de perguntas e respostas projetado para diagnosticar as limitações de generalização de Modelos Visão-Linguagem na compreensão de números ordinais, revelando que modelos de ponta sofrem degradação significativa ao lidar com grandes índices e caminhos complexos.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

O artigo apresenta o SGI (Structured Gaussian Image), um framework compacto e eficiente que representa imagens de alta resolução utilizando Gaussians neurais 2D estruturados baseados em sementes e uma estratégia de ajuste multiescala, alcançando compressão superior e convergência mais rápida sem comprometer a fidelidade da imagem.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Este trabalho apresenta o 4DRC-OCC, a primeira abordagem que combina dados de radar 4D e câmeras para previsão robusta de ocupação semântica 3D, aproveitando as medições confiáveis do radar em condições adversas e as informações semânticas da câmera, além de introduzir um novo conjunto de dados rotulados automaticamente para reduzir a dependência de anotação manual.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

O artigo apresenta o MWM, um modelo de mundo móvel que utiliza um treinamento em duas etapas e uma distilação consistente com a inferência para garantir previsões visualmente fiéis e coerentes com as ações, melhorando significativamente a navegação baseada em planejamento e a eficiência de inferência.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

O artigo apresenta o HybridStitch, um novo paradigma de geração de imagens que acelera os modelos de difusão ao dividir a imagem em regiões simples e complexas, utilizando um modelo menor para esboçar as áreas fáceis e um modelo maior para refinar as áreas complexas, alcançando um aumento de velocidade de 1,83× no Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Este projeto utiliza armadilhas fotográficas de baixo custo e modelos de visão computacional fundamentais na Reserva Natural Pu'u Maka'ala, no Havaí, para monitorar a fenologia vegetal e as interações flora-fauna em nível individual, revelando tendências ecológicas que métodos tradicionais não conseguem detectar.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

← Anterior Próximo →