cs.CV artigos | Gist.Science

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

O artigo apresenta o LiREC-Net, uma rede de aprendizado baseada em aprendizado que realiza calibração sem alvos e conjunta para sensores LiDAR, RGB e de eventos, superando métodos existentes limitados a pares bi-modais ao estabelecer um novo padrão de referência para fusão tri-modal.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Este artigo propõe um novo framework de paralelismo híbrido que combina particionamento baseado em condições e agendamento adaptativo de pipeline para acelerar significativamente a inferência de modelos de difusão condicional, reduzindo a latência em até 2,31 vezes sem comprometer a qualidade da geração.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

O artigo apresenta o SAPNet++, uma rede que aprimora a segmentação de instâncias baseada em pontos únicos ao integrar mecanismos de orientação de distância, mineração de caixas e refinamento de afinidade multiescala para resolver ambiguidades de granularidade e incertezas de limites, superando as limitações dos métodos anteriores em quatro conjuntos de dados desafiadores.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Este artigo apresenta o CUPID, um novo framework de desaprendizagem que mitiga o problema do "esquecimento de atalho" em modelos enviesados, utilizando a análise da nitidez do espaço de perda para particionar dados e atualizar seletivamente os caminhos causais e enviesados, garantindo assim um esquecimento robusto e eficaz.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Este artigo apresenta o FAQ, um novo benchmark em larga escala que avalia e aprimora a capacidade de raciocínio temporal de Modelos Visuais-Linguísticos na detecção de deepfakes em vídeo, superando as limitações das abordagens estáticas atuais através de uma hierarquia de três níveis e um conjunto de dados para ajuste fino.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

O artigo apresenta o XStreamVGGT, uma abordagem sem ajuste que integra poda e quantização para comprimir o cache KV em modelos de geometria visual, permitindo inferência de reconstrução 3D em streaming extremamente eficiente em memória com redução de 4,42 vezes no uso de memória e aceleração de 5,48 vezes na inferência.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

O artigo apresenta o GeoMotion, uma abordagem totalmente baseada em aprendizado que realiza segmentação de movimento em cenas dinâmicas de forma eficiente e end-to-end, inferindo objetos em movimento diretamente a partir de representações latentes e geometria 4D sem depender de estimativas explícitas de correspondência ou pipelines iterativos complexos.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

O artigo apresenta o StoryMovie, um dataset que alinha histórias visuais a roteiros e legendas de filmes para corrigir alucinações semânticas, demonstrando que o modelo Storyteller3, treinado com esse alinhamento, supera significativamente as abordagens baseadas apenas em ground visual na atribuição correta de diálogos e interações.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

O artigo propõe o Meta-FC, uma nova estratégia de treinamento baseada em meta-aprendizado e consistência de características que supera as limitações da abordagem SRD ao melhorar a robustez e a generalização de métodos de marcação d'água contra distorções conhecidas, combinadas e desconhecidas.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artigo propõe o framework Learning-to-Re-Prompt (L2RP), que estuda a propagação de erros em anotações de vídeos endoscópicos e aprende uma política adaptativa para intervir com especialistas de forma custo-eficiente, melhorando a precisão e a consistência temporal na segmentação de displasia de Barrett.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

O artigo apresenta o DynamicGTR, um framework que aprimora as capacidades de modelos de linguagem e visão em responder perguntas sobre grafos ao selecionar dinamicamente a representação de topologia de grafos mais adequada para cada consulta, otimizando o equilíbrio entre precisão e concisão sem necessidade de treinamento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

O artigo propõe o framework GFPL, que utiliza aprendizado federativo baseado em protótipos gerativos e uma arquitetura de dupla classificação para superar os desafios de desequilíbrio de dados e alto custo de comunicação em tarefas de visão computacional, resultando em maior precisão e eficiência.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Este artigo apresenta um modelo baseado em UNet para a regressão de keypoints e localização 3D de cones em corridas autônomas, utilizando um grande conjunto de dados personalizado para superar as limitações de métodos tradicionais e alcançar alto desempenho em tempo real.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

O artigo apresenta o NESS, um método de aprendizado contínuo que mitiga o esquecimento catastrófico ao aplicar atualizações específicas de tarefa no espaço nulo aproximado das representações de entrada anteriores, explorando os menores valores singulares para garantir ortogonalidade direta no espaço de pesos.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

O artigo apresenta o método "geometry-as-context", que utiliza um modelo de geração de vídeo autoral controlado por câmera e um módulo de atenção com portão para estimar geometria e restaurar imagens de novas visualizações iterativamente, superando as limitações de consistência e acúmulo de erros dos métodos anteriores na geração de vídeos de cenas 3D.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este artigo apresenta um framework automatizado baseado no modelo CARD-ViT, treinado exclusivamente com dados de tomografia computadorizada (TC) cardíaca com sincronização eletrocardiográfica (gated), que permite a detecção e pontuação de cálcio coronariano em exames de TC não sincronizados (non-gated) com desempenho comparável a modelos treinados especificamente para essa modalidade, viabilizando assim a triagem cardiovascular em exames de rotina sem a necessidade de novos exames ou anotações.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Este artigo propõe a Regularização de Difusão Ordinal Direcionada (D-ODR), um método que modela a progressão da Retinopatia Diabética como um fluxo direcionado e irreversível para garantir representações de características biologicamente plausíveis e melhorar a precisão do diagnóstico em comparação com abordagens existentes.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Este artigo apresenta um framework de aprendizado profundo leve baseado em MobileNetV3 e CORAL, otimizado para dispositivos móveis, que alcança alta precisão na triagem automatizada e escalável da retinopatia diabética a partir de imagens de fundo de olho.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Este artigo apresenta o MVGFDR, um quadro de aprendizado profundo que utiliza fusão de grafos multi-visão e reconstrução mascarada para capturar correlações inter-visuais e melhorar a graduação da retinopatia diabética, superando os métodos existentes em desempenho no conjunto de dados MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

O MindDriver é um novo framework de raciocínio multimodal progressivo que supera as limitações das abordagens atuais ao integrar compreensão semântica, imaginação espaço-física e planejamento de trajetória em modelos de visão e linguagem, resultando em desempenho superior em sistemas de direção autônoma.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

← Anterior Próximo →