SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

O artigo apresenta o SAPNet++, uma rede que aprimora a segmentação de instâncias baseada em pontos únicos ao integrar mecanismos de orientação de distância, mineração de caixas e refinamento de afinidade multiescala para resolver ambiguidades de granularidade e incertezas de limites, superando as limitações dos métodos anteriores em quatro conjuntos de dados desafiadores.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Este artigo apresenta o FAQ, um novo benchmark em larga escala que avalia e aprimora a capacidade de raciocínio temporal de Modelos Visuais-Linguísticos na detecção de deepfakes em vídeo, superando as limitações das abordagens estáticas atuais através de uma hierarquia de três níveis e um conjunto de dados para ajuste fino.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

O artigo apresenta o XStreamVGGT, uma abordagem sem ajuste que integra poda e quantização para comprimir o cache KV em modelos de geometria visual, permitindo inferência de reconstrução 3D em streaming extremamente eficiente em memória com redução de 4,42 vezes no uso de memória e aceleração de 5,48 vezes na inferência.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artigo propõe o framework Learning-to-Re-Prompt (L2RP), que estuda a propagação de erros em anotações de vídeos endoscópicos e aprende uma política adaptativa para intervir com especialistas de forma custo-eficiente, melhorando a precisão e a consistência temporal na segmentação de displasia de Barrett.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

O artigo apresenta o DynamicGTR, um framework que aprimora as capacidades de modelos de linguagem e visão em responder perguntas sobre grafos ao selecionar dinamicamente a representação de topologia de grafos mais adequada para cada consulta, otimizando o equilíbrio entre precisão e concisão sem necessidade de treinamento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

O artigo apresenta o método "geometry-as-context", que utiliza um modelo de geração de vídeo autoral controlado por câmera e um módulo de atenção com portão para estimar geometria e restaurar imagens de novas visualizações iterativamente, superando as limitações de consistência e acúmulo de erros dos métodos anteriores na geração de vídeos de cenas 3D.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI