A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Este artigo apresenta um método robusto para reconhecimento de marcos de quilometragem em metrôs, baseado na adaptação de modelos fundamentais de OCR RGB para dados multimodais (RGB-Evento) e introduz o primeiro grande conjunto de dados sincronizado, EvMetro5K, para superar desafios como variações de iluminação e alta velocidade em ambientes complexos.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Este artigo apresenta o RT-RMOT, uma nova tarefa de rastreamento de múltiplos objetos referenciados que combina dados RGB e térmicos, juntamente com o primeiro conjunto de dados multimodal (RefRT) e o framework RTrack baseado em modelos de linguagem grandes multimodais, que utiliza estratégias de otimização de política e recompensas estruturadas para melhorar o rastreamento em condições de baixa visibilidade.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

O artigo apresenta o SPGen, um modelo de aprendizado profundo que utiliza adaptação de domínio não supervisionada e amostragem estocástica para prever com precisão os padrões de varredura ocular de espectadores ao observar pinturas, superando as limitações dos métodos existentes e auxiliando na preservação do patrimônio cultural.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

O artigo apresenta o GeoDiv, um novo framework que utiliza modelos de linguagem e visão para medir a diversidade geográfica em geradores de imagens, revelando que modelos como Stable Diffusion e FLUX.1-dev frequentemente perpetuam estereótipos socioeconômicos e retratam países como Índia, Nigéria e Colômbia de forma desproporcionalmente empobrecida.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

O artigo apresenta o Lumosaic, um sistema ativo de vídeo hiperespectral compacto que combina uma matriz de LEDs de banda estreita com uma câmera de exposição codificada por pixel para capturar, em tempo real, vídeos hiperespectrais de 30 quadros por segundo com alta fidelidade espectral e estabilidade temporal, superando as limitações dos sistemas passivos ao sincronizar a iluminação e a exposição para lidar com cenas dinâmicas.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess