cs.CV artigos | Gist.Science

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Este artigo propõe a Regularização de Difusão Ordinal Direcionada (D-ODR), um método que modela a progressão da Retinopatia Diabética como um fluxo direcionado e irreversível para garantir representações de características biologicamente plausíveis e melhorar a precisão do diagnóstico em comparação com abordagens existentes.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Este artigo apresenta um framework de aprendizado profundo leve baseado em MobileNetV3 e CORAL, otimizado para dispositivos móveis, que alcança alta precisão na triagem automatizada e escalável da retinopatia diabética a partir de imagens de fundo de olho.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Este artigo apresenta o MVGFDR, um quadro de aprendizado profundo que utiliza fusão de grafos multi-visão e reconstrução mascarada para capturar correlações inter-visuais e melhorar a graduação da retinopatia diabética, superando os métodos existentes em desempenho no conjunto de dados MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

O MindDriver é um novo framework de raciocínio multimodal progressivo que supera as limitações das abordagens atuais ao integrar compreensão semântica, imaginação espaço-física e planejamento de trajetória em modelos de visão e linguagem, resultando em desempenho superior em sistemas de direção autônoma.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

O artigo apresenta o GLoTran, um framework de percepção visual global-local para modelos de linguagem multimodal que, juntamente com o novo conjunto de dados GLoD, supera as limitações existentes na tradução de imagens ricas em texto de alta resolução ao garantir consistência contextual e precisão em detalhes finos.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Este artigo apresenta um método de inicialização de grafos de pose para SfM que utiliza priorização de arestas baseada em uma Rede Neural Gráfica (GNN) para garantir consistência global, resultando em reconstruções mais precisas e compactas, especialmente em cenários esparsos e ambíguos.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

O artigo apresenta o Dream-SLAM, um método inovador de SLAM ativo monoculário que supera as limitações atuais ao "sonhar" com imagens e estruturas semânticas de ambientes dinâmicos para refinar a estimativa de pose, melhorar a representação 3D e permitir um planejamento de exploração de longo alcance mais eficiente e preciso.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

O artigo apresenta o PanoEnv, um benchmark de VQA em larga escala para imagens panorâmicas e um framework de aprendizado por reforço baseado em GRPO com currículo de duas etapas, que juntos superam as limitações atuais dos Modelos de Visão e Linguagem no raciocínio espacial 3D, alcançando desempenho state-of-the-art em tarefas estruturadas e abertas.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

O artigo apresenta o WoG (World Guidance), um novo framework que melhora a geração de ações em modelos Visão-Linguagem-Ação mapeando observações futuras para um espaço de condições compacto, permitindo um modelamento de mundo eficiente que supera métodos existentes em precisão e generalização tanto em simulações quanto no mundo real.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Este artigo apresenta um método robusto para reconhecimento de marcos de quilometragem em metrôs, baseado na adaptação de modelos fundamentais de OCR RGB para dados multimodais (RGB-Evento) e introduz o primeiro grande conjunto de dados sincronizado, EvMetro5K, para superar desafios como variações de iluminação e alta velocidade em ambientes complexos.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Este artigo apresenta o RT-RMOT, uma nova tarefa de rastreamento de múltiplos objetos referenciados que combina dados RGB e térmicos, juntamente com o primeiro conjunto de dados multimodal (RefRT) e o framework RTrack baseado em modelos de linguagem grandes multimodais, que utiliza estratégias de otimização de política e recompensas estruturadas para melhorar o rastreamento em condições de baixa visibilidade.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

O artigo apresenta o SPGen, um modelo de aprendizado profundo que utiliza adaptação de domínio não supervisionada e amostragem estocástica para prever com precisão os padrões de varredura ocular de espectadores ao observar pinturas, superando as limitações dos métodos existentes e auxiliando na preservação do patrimônio cultural.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

O artigo apresenta o AutoSew, uma abordagem totalmente automática baseada em geometria e Redes Neurais em Grafos que prevê correspondências de costura diretamente a partir de contornos de padrões 2D, alcançando alta precisão e permitindo a montagem escalável de roupas sem necessidade de entrada manual ou anotações semânticas.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

O artigo apresenta o NESTOR, um operador neural pré-treinado em grande escala baseado em uma arquitetura aninhada de Mistura de Especialistas (MoE) que combina dependências globais e locais para superar as limitações de arquiteturas únicas e melhorar a generalização na resolução de sistemas de EDPs heterogêneos.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

O artigo apresenta o AdaSpot, um framework eficiente para a localização precisa de eventos em vídeos que combina o processamento de baixa resolução com a seleção adaptativa e não supervisionada de regiões de interesse de alta resolução, alcançando desempenho superior em benchmarks padrão sem custos computacionais significativos.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

O artigo apresenta o WeatherCity, um novo framework para reconstrução de cenas urbanas 4D que permite a transformação e edição controlada de múltiplas condições climáticas com alta fidelidade e consistência temporal, superando as limitações de métodos existentes para simulação de clima em cenários autônomos.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

O artigo apresenta o Brain3D, um framework de visão-linguagem em três estágios que utiliza transformadores inflados nativos em 3D para gerar relatórios radiológicos automatizados de ressonâncias magnéticas cerebrais, superando significativamente as abordagens baseadas em 2D ao preservar o contexto espacial crítico para a neurorradiologia.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

O artigo apresenta o GeoDiv, um novo framework que utiliza modelos de linguagem e visão para medir a diversidade geográfica em geradores de imagens, revelando que modelos como Stable Diffusion e FLUX.1-dev frequentemente perpetuam estereótipos socioeconômicos e retratam países como Índia, Nigéria e Colômbia de forma desproporcionalmente empobrecida.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

O artigo apresenta o Lumosaic, um sistema ativo de vídeo hiperespectral compacto que combina uma matriz de LEDs de banda estreita com uma câmera de exposição codificada por pixel para capturar, em tempo real, vídeos hiperespectrais de 30 quadros por segundo com alta fidelidade espectral e estabilidade temporal, superando as limitações dos sistemas passivos ao sincronizar a iluminação e a exposição para lidar com cenas dinâmicas.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

← Anterior Próximo →