cs.CV artigos | Gist.Science

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Este artigo propõe uma formulação estocástica unificada que integra a renderização baseada em física e os modelos de difusão por meio de equações diferenciais estocásticas, permitindo um controle físico preciso sobre a geração de imagens.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

O artigo apresenta o COMiT, um framework de tokenização discreta inspirado na comunicação humana que, através de um processo iterativo de observação e atualização recorrente dentro de um orçamento fixo de tokens, gera representações visuais estruturadas e centradas em objetos, superando métodos anteriores em generalização composicional e raciocínio relacional.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

O artigo apresenta o PyVision-RL, um framework de aprendizado por reforço que estabiliza o treinamento de modelos multimodais abertos, prevenindo o colapso de interações e promovendo o uso sustentado de ferramentas e o processamento visual sob demanda para tarefas de imagem e vídeo.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

O artigo apresenta o OrthoDiffusion, um modelo fundacional de difusão generalizável e auto-supervisionado que, ao ser pré-treinado em milhares de ressonâncias magnéticas de joelho não rotuladas, alcança desempenho superior e robusto em tarefas de segmentação e diagnóstico de múltiplas anomalias musculoesqueléticas, demonstrando alta eficiência mesmo com poucos dados rotulados e capacidade de transferência para outras articulações.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabalho propõe uma abordagem de aprendizado federado para segmentação de imagens médicas entre diferentes modalidades, demonstrando que a técnica de aumento de dados de intensidade não linear global (GIN) supera outras estratégias ao permitir que modelos treinados em dados de uma única modalidade (como CT ou MRI) generalizem eficazmente para outras, alcançando desempenho comparável ao treinamento centralizado sem comprometer a privacidade dos dados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Este artigo propõe um quadro de segmentação de movimento em tempo real para visão baseada em eventos que utiliza fluxo normal denso como representação intermediária para formular o problema como uma minimização de energia resolvida por cortes de grafos, alcançando uma aceleração de quase 800 vezes em comparação com métodos existentes ao reduzir a complexidade computacional e manter alta precisão.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

O artigo apresenta o VGGDrive, uma nova arquitetura que integra modelos de fundação 3D maduros a Modelos Visão-Linguagem (VLMs) por meio de um mecanismo de ativação geométrica de cruzamento de visão (CVGE), superando as limitações atuais e aprimorando significativamente o desempenho em diversas tarefas de direção autônoma, como percepção de risco, previsão de movimento e planejamento de trajetória.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

O RU4D-SLAM é um framework robusto e eficiente que aprimora a reconstrução de cenas 4D em ambientes dinâmicos, integrando fatores temporais à representação 3D, síntese de imagens desfocadas e um mecanismo de reponderação semântica de incerteza para superar as limitações dos métodos atuais de SLAM com Gaussian Splatting.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

O artigo apresenta o GatedCLIP, um modelo de visão e linguagem que aprimora a detecção de memes de ódio ao introduzir mecanismos de fusão dinâmica e aprendizado contrastivo, alcançando um desempenho superior ao baseline CLIP no conjunto de dados Hateful Memes com apenas 350 mil parâmetros treináveis.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudo apresenta o FLIM-BoFP, um método aprimorado para redes FLIM que substitui o agrupamento de patches por uma única etapa de agrupamento baseada em pontos de características, resultando em uma estimativa de filtros mais rápida e eficiente para detecção de objetos salientes, como parasitas em imagens de microscopia óptica, sem a necessidade de retropropagação ou anotação extensiva.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

O artigo apresenta o "Hybrid Fusion", um novo framework híbrido que combina uma rede U-Net aprendível com um kernel de fusão clássico fixo para permitir um treinamento eficiente em resolução total em apenas um minuto, alcançando desempenho de ponta e generalização zero-shot em tarefas de fusão de imagens sem lacuna entre treinamento e inferência.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Este artigo investiga a explicabilidade de modelos visão-linguagem (especificamente o CLIP) no contexto da história da arte, avaliando sete métodos de IA explicável por meio de experimentos de localização *zero-shot* e estudos de interpretabilidade humana, e conclui que sua eficácia depende da estabilidade conceitual e da disponibilidade representacional das categorias analisadas.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

O artigo propõe o DA-Cal, um framework de calibração cruzada que otimiza pseudo-rótulos suaves por meio de uma Rede Meta de Temperatura e estratégias de mistura de domínios, melhorando significativamente a confiabilidade e o desempenho de modelos de segmentação semântica em adaptação de domínio não supervisionada sem sobrecarga na inferência.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

O artigo apresenta o MUSE, um framework estocástico para classificação de imagens de lâminas inteiras (WSI) em cenários de poucos exemplos, que supera as limitações de métodos anteriores ao refinar semanticamente os priors de forma específica para cada amostra e enriquecer a supervisão através da integração estocástica de múltiplas visões textuais geradas por modelos de linguagem, resultando em maior precisão e diversidade de alinhamento visual-semantic.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

O artigo apresenta o SpatiaLQA, um novo benchmark com mais de 9.600 pares de perguntas e respostas derivadas de cenas reais para avaliar o raciocínio lógico-espacial em Modelos Visão-Linguagem (VLMs), demonstrando que os modelos atuais têm dificuldades nessa tarefa e propondo um método de raciocínio assistido por grafos de cena recursivos para superar essas limitações.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

O artigo propõe o SAEF, um método que organiza adaptadores em uma hierarquia estruturada baseada em relações semânticas para melhorar o compartilhamento de conhecimento e alcançar desempenho superior no aprendizado incremental de classes baseado em modelos pré-treinados.

Ruiqi Liu, Boyu Diao, Hangda Liu + 3 more2026-02-25🤖 cs.LG

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

O artigo apresenta o LongVideo-R1, um agente multimodal eficiente que utiliza raciocínio ativo e navegação seletiva em vídeos de longa duração para responder a consultas com alta precisão e baixo custo computacional, evitando a busca exaustiva.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

O artigo apresenta o LST-SLAM, um sistema de SLAM estéreo térmico inovador que supera os desafios de ambientes dinâmicos em grande escala através da combinação de aprendizado de características auto-supervisionado, rastreamento de movimento em dois níveis e otimização de pose global, demonstrando superioridade em robustez e precisão em comparação com sistemas existentes.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

O artigo apresenta o DropAnSH-GS, um método inovador para *Gaussian Splatting* 3D que combate o *overfitting* em condições de poucas vistas ao eliminar simultaneamente Gaussians vizinhos de âncoras selecionadas e descartar coeficientes harmônicos esféricos de alta ordem, resultando em representações mais robustas e modelos comprimíveis com desempenho superior.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

O UFO é um novo paradigma recorrente que unifica métodos feed-forward e baseados em otimização para realizar a reconstrução eficiente e precisa de cenas de direção dinâmicas em longas sequências, superando as limitações de complexidade e modelagem de objetos existentes.

Kaiyuan Tan, Yingying Shen, Mingfei Tu + 5 more2026-02-25💻 cs

← Anterior Próximo →