cs.CV artigos | Gist.Science

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artigo propõe o framework Learning-to-Re-Prompt (L2RP), que estuda a propagação de erros em anotações de vídeos endoscópicos e aprende uma política adaptativa para intervir com especialistas de forma custo-eficiente, melhorando a precisão e a consistência temporal na segmentação de displasia de Barrett.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

O artigo apresenta o DynamicGTR, um framework que aprimora as capacidades de modelos de linguagem e visão em responder perguntas sobre grafos ao selecionar dinamicamente a representação de topologia de grafos mais adequada para cada consulta, otimizando o equilíbrio entre precisão e concisão sem necessidade de treinamento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

O artigo propõe o framework GFPL, que utiliza aprendizado federativo baseado em protótipos gerativos e uma arquitetura de dupla classificação para superar os desafios de desequilíbrio de dados e alto custo de comunicação em tarefas de visão computacional, resultando em maior precisão e eficiência.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Este artigo apresenta um modelo baseado em UNet para a regressão de keypoints e localização 3D de cones em corridas autônomas, utilizando um grande conjunto de dados personalizado para superar as limitações de métodos tradicionais e alcançar alto desempenho em tempo real.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

O artigo apresenta o NESS, um método de aprendizado contínuo que mitiga o esquecimento catastrófico ao aplicar atualizações específicas de tarefa no espaço nulo aproximado das representações de entrada anteriores, explorando os menores valores singulares para garantir ortogonalidade direta no espaço de pesos.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

O artigo apresenta o método "geometry-as-context", que utiliza um modelo de geração de vídeo autoral controlado por câmera e um módulo de atenção com portão para estimar geometria e restaurar imagens de novas visualizações iterativamente, superando as limitações de consistência e acúmulo de erros dos métodos anteriores na geração de vídeos de cenas 3D.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Este artigo propõe a Regularização de Difusão Ordinal Direcionada (D-ODR), um método que modela a progressão da Retinopatia Diabética como um fluxo direcionado e irreversível para garantir representações de características biologicamente plausíveis e melhorar a precisão do diagnóstico em comparação com abordagens existentes.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Este artigo apresenta um framework de aprendizado profundo leve baseado em MobileNetV3 e CORAL, otimizado para dispositivos móveis, que alcança alta precisão na triagem automatizada e escalável da retinopatia diabética a partir de imagens de fundo de olho.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Este artigo apresenta o MVGFDR, um quadro de aprendizado profundo que utiliza fusão de grafos multi-visão e reconstrução mascarada para capturar correlações inter-visuais e melhorar a graduação da retinopatia diabética, superando os métodos existentes em desempenho no conjunto de dados MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

O MindDriver é um novo framework de raciocínio multimodal progressivo que supera as limitações das abordagens atuais ao integrar compreensão semântica, imaginação espaço-física e planejamento de trajetória em modelos de visão e linguagem, resultando em desempenho superior em sistemas de direção autônoma.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

O artigo apresenta o GLoTran, um framework de percepção visual global-local para modelos de linguagem multimodal que, juntamente com o novo conjunto de dados GLoD, supera as limitações existentes na tradução de imagens ricas em texto de alta resolução ao garantir consistência contextual e precisão em detalhes finos.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Este artigo apresenta um método de inicialização de grafos de pose para SfM que utiliza priorização de arestas baseada em uma Rede Neural Gráfica (GNN) para garantir consistência global, resultando em reconstruções mais precisas e compactas, especialmente em cenários esparsos e ambíguos.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

O artigo apresenta o Dream-SLAM, um método inovador de SLAM ativo monoculário que supera as limitações atuais ao "sonhar" com imagens e estruturas semânticas de ambientes dinâmicos para refinar a estimativa de pose, melhorar a representação 3D e permitir um planejamento de exploração de longo alcance mais eficiente e preciso.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

O artigo apresenta o PanoEnv, um benchmark de VQA em larga escala para imagens panorâmicas e um framework de aprendizado por reforço baseado em GRPO com currículo de duas etapas, que juntos superam as limitações atuais dos Modelos de Visão e Linguagem no raciocínio espacial 3D, alcançando desempenho state-of-the-art em tarefas estruturadas e abertas.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

O artigo apresenta o WoG (World Guidance), um novo framework que melhora a geração de ações em modelos Visão-Linguagem-Ação mapeando observações futuras para um espaço de condições compacto, permitindo um modelamento de mundo eficiente que supera métodos existentes em precisão e generalização tanto em simulações quanto no mundo real.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Este artigo apresenta um método robusto para reconhecimento de marcos de quilometragem em metrôs, baseado na adaptação de modelos fundamentais de OCR RGB para dados multimodais (RGB-Evento) e introduz o primeiro grande conjunto de dados sincronizado, EvMetro5K, para superar desafios como variações de iluminação e alta velocidade em ambientes complexos.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Este artigo apresenta o RT-RMOT, uma nova tarefa de rastreamento de múltiplos objetos referenciados que combina dados RGB e térmicos, juntamente com o primeiro conjunto de dados multimodal (RefRT) e o framework RTrack baseado em modelos de linguagem grandes multimodais, que utiliza estratégias de otimização de política e recompensas estruturadas para melhorar o rastreamento em condições de baixa visibilidade.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

O artigo apresenta o SPGen, um modelo de aprendizado profundo que utiliza adaptação de domínio não supervisionada e amostragem estocástica para prever com precisão os padrões de varredura ocular de espectadores ao observar pinturas, superando as limitações dos métodos existentes e auxiliando na preservação do patrimônio cultural.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

O artigo apresenta o AutoSew, uma abordagem totalmente automática baseada em geometria e Redes Neurais em Grafos que prevê correspondências de costura diretamente a partir de contornos de padrões 2D, alcançando alta precisão e permitindo a montagem escalável de roupas sem necessidade de entrada manual ou anotações semânticas.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

← Anterior Próximo →