cs.CV artigos | Gist.Science

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

O artigo apresenta o RESBev, um método plug-and-play que aprimora a robustez da percepção em visão de pássaro (BEV) para veículos autônomos ao reformular a recuperação de dados corrompidos como um problema de previsão semântica latente, utilizando um modelo de mundo para reconstruir características BEV limpas diante de degradações de sensores e ataques adversariais.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudo demonstra que a progressão radiológica da fibroelastose pleuroparenquimatosa (PPFE) em programas de rastreio de cancro do pulmão está independentemente associada ao aumento da mortalidade e a desfechos clínicos adversos, sugerindo que a sua avaliação quantitativa pode servir como um biomarcador relevante para identificar indivíduos com maior risco respiratório.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabalho propõe uma estratégia de pós-treinamento baseada em aprendizado por reforço, utilizando uma extensão multimodal do GRPO e recompensas híbridas, para capacitar modelos unificados de visão e linguagem a gerar saídas intercaladas de texto e imagem de alta qualidade sem depender de grandes conjuntos de dados específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabalho apresenta o conjunto de dados DynHiL-EQA e o framework DIVRR, uma solução sem treinamento que refina a visão e seleciona memória adaptativamente para melhorar a robustez e a eficiência de agentes de Resposta a Perguntas Corporificadas (EQA) em ambientes dinâmicos e com presença humana.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudo apresenta uma análise abrangente e unificada de diversos métodos de imageamento não-visão direta (NLOS) baseados em tempo de voo, estabelecendo um modelo comum para avaliar suas similaridades, diferenças e limitações experimentais sob condições de hardware padronizadas, visando servir como referência para comparações objetivas futuras.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

O artigo apresenta o GeoSolver, um novo framework que utiliza o conjunto de dados Geo-PRM-2M e o algoritmo de aprendizado por reforço Process-Aware Tree-GRPO para superar os desafios de fidelidade visual e escalar o raciocínio em tempo de teste em modelos de visão e linguagem aplicados à sensoriamento remoto, alcançando desempenho state-of-the-art.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

O artigo apresenta o GeoAlignCLIP, um framework unificado que aprimora o alinhamento visão-linguagem em imagens de sensoriamento remoto através da aprendizagem de consistência multi-granular e do uso do novo conjunto de dados RSFG-100k, superando métodos existentes em tarefas complexas e de alta granularidade.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabalho introduz o paradigma de Modelagem Linguística Panorâmica (PLM) e o conjunto de dados PanoVQA para cenas adversas, propondo uma abordagem unificada de raciocínio 360° que supera as limitações dos modelos de visão-linguagem tradicionais baseados em imagens de campo de visão estreito.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

O artigo apresenta o BinaryAttention, um método inovador que utiliza atenção QK de 1 bit com operações de bits e um viés aprendível para acelerar significativamente os Transformers de visão e difusão, superando em velocidade o FlashAttention2 enquanto mantém ou melhora a precisão.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

O artigo apresenta o ParTY, um novo framework que melhora a síntese de movimentos humanos a partir de texto ao introduzir mecanismos de orientação por partes do corpo e alinhamento semântico, resolvendo o compromisso entre a expressividade de movimentos específicos e a coerência do corpo inteiro.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artigo propõe um método de classificação de imagens inspirado em saccades oculares que utiliza mapas de atenção do modelo DINO para focar o processamento em regiões relevantes, alcançando desempenho superior ou equivalente ao processamento completo da imagem e demonstrando a eficácia da atenção de Vision Transformers como guia para visão ativa biologicamente inspirada.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

O artigo propõe um novo framework de super-resolução de MRI sem necessidade de dados pareados que utiliza uma representação explícita de Gaussianas adaptada à física do tecido e uma estratégia de renderização volumétrica baseada em física para alcançar reconstruções de alta qualidade e eficiência computacional.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

O artigo apresenta o QDR, um framework de restauração de imagem otimizado para dispositivos de borda que utiliza destilação sem decodificador e reponderação dinâmica de magnitude para superar limitações de quantização, alcançando desempenho próximo ao de modelos em precisão de ponto flutuante com alta eficiência computacional.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Este trabalho propõe um framework fundamentado em visão e linguagem para a geração e avaliação interpretável de dados sintéticos em sensoriamento remoto, introduzindo o conjunto de dados ARAS400k e demonstrando que o treinamento com dados aumentados (reais e sintéticos) supera consistentemente as bases de dados reais em tarefas de segmentação semântica e legendagem de imagens.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

O artigo apresenta o X-GS, um framework aberto e extensível que unifica técnicas de 3DGS com modelos multimodais downstream, permitindo a criação de mapas 3D semânticos em tempo real a partir de vídeos não calibrados para habilitar tarefas como detecção de objetos e geração de legendas.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

O artigo apresenta o OTPL-VIO, um sistema de odometria visual-inercial estéreo robusto que utiliza descritores profundos livres de treinamento e correspondência baseada em transporte ótimo para associar linhas, superando limitações em cenas de baixa textura e mudanças bruscas de iluminação com maior precisão e estabilidade em tempo real.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

O artigo apresenta o KV-Lock, uma abordagem livre de treinamento para modelos de difusão de vídeo baseados em DiT que otimiza a consistência de fundo e a qualidade do primeiro plano ajustando dinamicamente a fusão de chaves-valor (KVs) e a escala de orientação condicional (CFG) com base na detecção de alucinação.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

← Anterior Próximo →