cs.CV artigos | Gist.Science

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

O artigo apresenta o VGGDrive, uma nova arquitetura que integra modelos de fundação 3D maduros a Modelos Visão-Linguagem (VLMs) por meio de um mecanismo de ativação geométrica de cruzamento de visão (CVGE), superando as limitações atuais e aprimorando significativamente o desempenho em diversas tarefas de direção autônoma, como percepção de risco, previsão de movimento e planejamento de trajetória.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

O RU4D-SLAM é um framework robusto e eficiente que aprimora a reconstrução de cenas 4D em ambientes dinâmicos, integrando fatores temporais à representação 3D, síntese de imagens desfocadas e um mecanismo de reponderação semântica de incerteza para superar as limitações dos métodos atuais de SLAM com Gaussian Splatting.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

O artigo apresenta o GatedCLIP, um modelo de visão e linguagem que aprimora a detecção de memes de ódio ao introduzir mecanismos de fusão dinâmica e aprendizado contrastivo, alcançando um desempenho superior ao baseline CLIP no conjunto de dados Hateful Memes com apenas 350 mil parâmetros treináveis.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudo apresenta o FLIM-BoFP, um método aprimorado para redes FLIM que substitui o agrupamento de patches por uma única etapa de agrupamento baseada em pontos de características, resultando em uma estimativa de filtros mais rápida e eficiente para detecção de objetos salientes, como parasitas em imagens de microscopia óptica, sem a necessidade de retropropagação ou anotação extensiva.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

O artigo apresenta o "Hybrid Fusion", um novo framework híbrido que combina uma rede U-Net aprendível com um kernel de fusão clássico fixo para permitir um treinamento eficiente em resolução total em apenas um minuto, alcançando desempenho de ponta e generalização zero-shot em tarefas de fusão de imagens sem lacuna entre treinamento e inferência.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Este artigo investiga a explicabilidade de modelos visão-linguagem (especificamente o CLIP) no contexto da história da arte, avaliando sete métodos de IA explicável por meio de experimentos de localização *zero-shot* e estudos de interpretabilidade humana, e conclui que sua eficácia depende da estabilidade conceitual e da disponibilidade representacional das categorias analisadas.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

O artigo propõe o DA-Cal, um framework de calibração cruzada que otimiza pseudo-rótulos suaves por meio de uma Rede Meta de Temperatura e estratégias de mistura de domínios, melhorando significativamente a confiabilidade e o desempenho de modelos de segmentação semântica em adaptação de domínio não supervisionada sem sobrecarga na inferência.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

O artigo apresenta o MUSE, um framework estocástico para classificação de imagens de lâminas inteiras (WSI) em cenários de poucos exemplos, que supera as limitações de métodos anteriores ao refinar semanticamente os priors de forma específica para cada amostra e enriquecer a supervisão através da integração estocástica de múltiplas visões textuais geradas por modelos de linguagem, resultando em maior precisão e diversidade de alinhamento visual-semantic.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

O artigo apresenta o SpatiaLQA, um novo benchmark com mais de 9.600 pares de perguntas e respostas derivadas de cenas reais para avaliar o raciocínio lógico-espacial em Modelos Visão-Linguagem (VLMs), demonstrando que os modelos atuais têm dificuldades nessa tarefa e propondo um método de raciocínio assistido por grafos de cena recursivos para superar essas limitações.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

O artigo propõe o SAEF, um método que organiza adaptadores em uma hierarquia estruturada baseada em relações semânticas para melhorar o compartilhamento de conhecimento e alcançar desempenho superior no aprendizado incremental de classes baseado em modelos pré-treinados.

Ruiqi Liu, Boyu Diao, Hangda Liu + 3 more2026-02-25🤖 cs.LG

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

O artigo apresenta o LongVideo-R1, um agente multimodal eficiente que utiliza raciocínio ativo e navegação seletiva em vídeos de longa duração para responder a consultas com alta precisão e baixo custo computacional, evitando a busca exaustiva.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

O artigo apresenta o LST-SLAM, um sistema de SLAM estéreo térmico inovador que supera os desafios de ambientes dinâmicos em grande escala através da combinação de aprendizado de características auto-supervisionado, rastreamento de movimento em dois níveis e otimização de pose global, demonstrando superioridade em robustez e precisão em comparação com sistemas existentes.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

O artigo apresenta o DropAnSH-GS, um método inovador para *Gaussian Splatting* 3D que combate o *overfitting* em condições de poucas vistas ao eliminar simultaneamente Gaussians vizinhos de âncoras selecionadas e descartar coeficientes harmônicos esféricos de alta ordem, resultando em representações mais robustas e modelos comprimíveis com desempenho superior.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

O UFO é um novo paradigma recorrente que unifica métodos feed-forward e baseados em otimização para realizar a reconstrução eficiente e precisa de cenas de direção dinâmicas em longas sequências, superando as limitações de complexidade e modelagem de objetos existentes.

Kaiyuan Tan, Yingying Shen, Mingfei Tu + 5 more2026-02-25💻 cs

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artigo apresenta o Wilson Score Kernel Density Classification, um método inovador baseado em kernels para estimar limites de confiança em classificações binárias que oferece desempenho comparável aos Processos Gaussianos com menor complexidade computacional, permitindo sua aplicação como cabeçalho de classificação em modelos de visão foundation.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Este artigo propõe o framework TagLLM, que utiliza modelos de linguagem multimodal para automatizar a anotação de imagens com custos drasticamente reduzidos e alta eficácia em tarefas downstream, fechando a maior parte da lacuna de desempenho em relação à anotação humana.

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou + 3 more2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artigo propõe o MS-RSuper, um método de segmentação supervisionada por relatórios que integra achados quantitativos e qualitativos hierárquicos de ressonância magnética multimodal com prioridade anatômica e mecanismos de incerteza para superar as limitações de métodos anteriores na segmentação de lesões cerebrais e suas subestruturas.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design

O artigo apresenta o Le-DETR, um modelo de detecção em tempo real que alcança desempenho de ponta (SOTA) com custos de pré-treinamento drasticamente reduzidos, graças ao uso de uma arquitetura de codificador híbrido eficiente e do novo backbone EfficientNAT.

Jiannan Huang, Aditya Kane, Fengzhe Zhou + 2 more2026-02-25💻 cs

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este artigo apresenta o CHAIN, um benchmark interativo 3D e baseado em física que avalia a capacidade de modelos de visão e linguagem de raciocinar sobre estruturas físicas e planejar sequências de ações, revelando que os modelos atuais ainda têm dificuldades significativas em internalizar restrições causais e geométricas para resolver problemas de longo prazo.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

O MIP Candy é um framework modular e de código aberto baseado em PyTorch que simplifica o processamento de imagens médicas ao oferecer um pipeline completo e flexível, permitindo que pesquisadores implementem fluxos de trabalho funcionais com um único método enquanto mantêm controle granular sobre componentes como configuração de camadas, validação cruzada e rastreamento de experimentos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

← Anterior Próximo →