cs.CV artigos | Gist.Science

Accurate Planar Tracking With Robust Re-Detection

Este artigo apresenta o SAM-H e o WOFTSAM, novos rastreadores planares que combinam segmentação robusta com estimativa de homografia, estabelecendo o novo estado da arte nos benchmarks POT-210 e PlanarTrack, além de fornecer anotações de verdade terrestre aprimoradas e código aberto.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

O artigo propõe o método HiRM (High-Level Representation Misdirection), que realiza a eliminação precisa de conceitos indesejados em modelos de difusão texto-para-imagem ao redirecionar representações semânticas de alto nível no codificador de texto, preservando a qualidade da geração e a utilidade do modelo com baixo custo de treinamento.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

O artigo apresenta o FedTAR, um framework de aprendizado federado que utiliza adaptação temporal e personalização baseada em dados demográficos para gerar relatórios médicos longitudinais precisos e coerentes, superando as limitações de privacidade e a heterogeneidade dos dados em diferentes visitas dos pacientes.

He Zhu, Ren Togo, Takahiro Ogawa + 8 more2026-02-24🤖 cs.LG

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

O TeHOR é um novo framework que realiza a reconstrução conjunta de humanos e objetos 3D a partir de uma única imagem, superando as limitações de métodos anteriores ao utilizar descrições textuais e cues de aparência para garantir alinhamento semântico e reconstruções visualmente plausíveis, inclusive em interações sem contato físico.

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee2026-02-24🤖 cs.AI

BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

O artigo apresenta o BayesFusion-SDF, um framework de fusão probabilística de distância assinada focado em CPU que supera os métodos tradicionais de TSDF em precisão geométrica e estimativa de incerteza, oferecendo uma alternativa eficiente e interpretável às abordagens neurais pesadas em GPU para reconstrução 3D densa e planejamento de visão ativa.

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta2026-02-24💻 cs

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Este artigo apresenta um sistema de prova de conceito que automatiza a classificação iconográfica e a recomendação baseada em conteúdo de obras de arte digitalizadas, integrando detecção de objetos com YOLOv8, mapeamento para o vocabulário Iconclass e inferência baseada em regras para acelerar a catalogação e melhorar a navegação em repositórios de patrimônio cultural.

Krzysztof Kutt, Maciej Baczyński2026-02-24🤖 cs.AI

HDR Reconstruction Boosting with Training-Free and Exposure-Consistent Diffusion

Este artigo apresenta uma abordagem sem treinamento que utiliza difusão guiada por texto e refinamento SDEdit para melhorar a reconstrução de HDR a partir de imagens LDR, recuperando detalhes em regiões superexpostas enquanto mantém a consistência luminosa entre múltiplas exposições.

Yo-Tin Lin, Su-Kai Chen, Hou-Ning Hu + 2 more2026-02-24💻 cs

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

O artigo apresenta o Pose-VLA, um paradigma de pré-treinamento universal que desacopla a extração de priores espaciais 3D da adaptação específica ao corpo, utilizando tokens de pose discretos para alcançar desempenho de ponta e generalização robusta em políticas Visão-Linguagem-Ação com poucos exemplos.

Haitao Lin, Hanyang Yu, Jingshun Huang + 5 more2026-02-24🤖 cs.LG

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

O artigo apresenta o DeepfakeJudge, um framework que utiliza um processo de bootstrap para supervisionar e avaliar a fidelidade do raciocínio em modelos de detecção de deepfakes, alcançando alta precisão e concordância com avaliações humanas sem a necessidade de rótulos de raciocínio explícitos.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

O artigo apresenta o Flose, um método generativo inovador para estimação de pose 6D que utiliza correspondência de fluxo condicional em $\mathbb{R}^3$ combinando características semânticas de aparência e registro RANSAC para superar as limitações de métodos anteriores em lidar com simetrias de objetos e falta de características locais, alcançando desempenho superior em cinco conjuntos de dados do benchmark BOP.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

O artigo apresenta o PMM-Synth, um quadro de síntese de MRI personalizado que, ao ser treinado em múltiplos conjuntos de dados heterogêneos através de módulos de modulação de características, agendamento de lotes consistente e perda de supervisão seletiva, supera os métodos atuais na geração de modalidades ausentes e na preservação de detalhes anatômicos e patológicos para aplicações clínicas.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

O artigo apresenta o VGGT-MPR, um framework de reconhecimento de lugares multimodal que utiliza o Visual Geometry Grounded Transformer (VGGT) como motor geométrico unificado para extração de características e reclassificação sem treinamento, alcançando desempenho superior e robustez em ambientes de direção autônoma.

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan + 5 more2026-02-24💻 cs

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

O artigo apresenta o RAP, um método rápido e sem renderização que prevê scores de importância para primitivas em Gaussian Splatting 3D baseando-se apenas em atributos intrínsecos e estatísticas locais, superando as limitações de custo computacional e generalização dos métodos existentes.

Kaifa Yang, Qi Yang, Yiling Xu + 1 more2026-02-24💻 cs

Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Este estudo apresenta o primeiro benchmark de dez redes de correspondência estéreo profunda treinadas em imagens reais de galhos de árvores para aplicações de poda autônoma em drones, identificando o BANet-3D como o modelo de melhor qualidade visual e o AnyNet como a única opção capaz de operar em tempo real em hardware embarcado.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-24⚡ eess

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Este artigo apresenta um quadro de aprendizado profundo de duas etapas que combina síntese de imagens de ultrassom guiada por ressonância magnética e destilação de gradiente para criar uma ferramenta de triagem de carcinoma endometrial altamente precisa e leve, capaz de superar as limitações de dados e computação em ambientes de cuidados primários.

Dongjing Shan, Yamei Luo, Jiqing Xuan + 7 more2026-02-24🤖 cs.AI

Open-vocabulary 3D scene perception in industrial environments

Este trabalho propõe um pipeline de percepção 3D sem treinamento para ambientes industriais que supera as limitações de generalização dos modelos existentes ao gerar máscaras de instância fundindo superpontos pré-computados com base em características semânticas, permitindo a segmentação eficaz de objetos industriais através do modelo "IndustrialCLIP".

Keno Moenck, Adrian Philip Florea, Julian Koch + 1 more2026-02-24💻 cs

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

O artigo apresenta o TextShield-R1, um modelo de linguagem multimodal baseado em aprendizado por reforço que utiliza pré-treinamento curricular, otimização de política e retificação de OCR para detectar e raciocinar sobre textos adulterados em imagens, superando limitações anteriores e sendo avaliado no novo benchmark TFR.

Chenfan Qu, Yiwu Zhong, Jian Liu + 3 more2026-02-24💻 cs

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Este artigo apresenta o M3S-Net, uma rede de fusão de características multimodais baseada em dados multiescala que utiliza convoluções parciais, transformada de Fourier rápida e um módulo de interação Mamba com troca dinâmica de matrizes para superar as limitações das abordagens existentes e melhorar a precisão da previsão de potência fotovoltaica em ultra-curto prazo.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-24💻 cs

DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

O artigo apresenta o DerMAE, um método que utiliza modelos de difusão condicionados para gerar imagens sintéticas e pré-treinamento MAE para melhorar a classificação de lesões de pele em cenários de desequilíbrio de classes, transferindo o conhecimento para modelos leves via destilação para viabilizar sua implementação em dispositivos móveis.

Francisco Filho, Kelvin Cunha, Fábio Papais + 6 more2026-02-24💻 cs

Contrastive meta-domain adaptation for robust skin lesion classification across clinical and acquisition conditions

Este artigo propõe uma estratégia de adaptação meta-domínio contrastiva que melhora a robustez e a generalização dos modelos de classificação de lesões cutâneas ao transferir representações visuais de grandes conjuntos de dados dermoscópicos para domínios clínicos, mitigando assim os efeitos das variações de aquisição e desvios de domínio.

Rodrigo Mota, Kelvin Cunha, Emanoel dos Santos + 6 more2026-02-24💻 cs

← Anterior Próximo →