Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artigo propõe o framework Learning-to-Re-Prompt (L2RP), que estuda a propagação de erros em anotações de vídeos endoscópicos e aprende uma política adaptativa para intervir com especialistas de forma custo-eficiente, melhorando a precisão e a consistência temporal na segmentação de displasia de Barrett.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

O artigo apresenta o DynamicGTR, um framework que aprimora as capacidades de modelos de linguagem e visão em responder perguntas sobre grafos ao selecionar dinamicamente a representação de topologia de grafos mais adequada para cada consulta, otimizando o equilíbrio entre precisão e concisão sem necessidade de treinamento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

O artigo apresenta o método "geometry-as-context", que utiliza um modelo de geração de vídeo autoral controlado por câmera e um módulo de atenção com portão para estimar geometria e restaurar imagens de novas visualizações iterativamente, superando as limitações de consistência e acúmulo de erros dos métodos anteriores na geração de vídeos de cenas 3D.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Este artigo apresenta um método robusto para reconhecimento de marcos de quilometragem em metrôs, baseado na adaptação de modelos fundamentais de OCR RGB para dados multimodais (RGB-Evento) e introduz o primeiro grande conjunto de dados sincronizado, EvMetro5K, para superar desafios como variações de iluminação e alta velocidade em ambientes complexos.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Este artigo apresenta o RT-RMOT, uma nova tarefa de rastreamento de múltiplos objetos referenciados que combina dados RGB e térmicos, juntamente com o primeiro conjunto de dados multimodal (RefRT) e o framework RTrack baseado em modelos de linguagem grandes multimodais, que utiliza estratégias de otimização de política e recompensas estruturadas para melhorar o rastreamento em condições de baixa visibilidade.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

O artigo apresenta o SPGen, um modelo de aprendizado profundo que utiliza adaptação de domínio não supervisionada e amostragem estocástica para prever com precisão os padrões de varredura ocular de espectadores ao observar pinturas, superando as limitações dos métodos existentes e auxiliando na preservação do patrimônio cultural.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs