cs.CV artigos | Gist.Science

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

O artigo propõe a VCC-Net, uma rede colaborativa guiada pela cognição visual que integra os rastros de busca visual de radiologistas (capturados por eye-tracking ou mouse) com inferência de IA para criar um sistema de diagnóstico de radiografias de tórax mais confiável, interpretável e alinhado ao fluxo de trabalho clínico, alcançando alta precisão em conjuntos de dados públicos e privados.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

O artigo propõe o HybridINR-PCGC, um novo framework híbrido de compressão geométrica de nuvens de pontos sem perdas que combina redes pré-treinadas e representações neurais implícitas para superar as limitações de dependência de dados e ineficiência de codificação, alcançando reduções significativas na taxa de bits e melhor eficiência de codificação.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

O artigo apresenta o MoGaF, um framework baseado em 4D Gaussian Splatting que utiliza agrupamento e otimização de Gaussiana orientados ao movimento para realizar a previsão de longo prazo de cenas dinâmicas com evolução temporal estável e coerência física.

Junmyeong Lee, Hoseung Choi, Minsu Cho2026-02-26💻 cs

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Este artigo apresenta o E-comIQ-ZH, um novo framework que inclui o primeiro dataset especializado (E-comIQ-18k) com raciocínio em cadeia e um modelo de avaliação (E-comIQ-M) alinhado a especialistas, visando superar as limitações das métricas atuais na avaliação automática e detalhada de pôsteres de e-commerce em chinês.

Meiqi Sun, Mingyu Li, Junxiong Zhu2026-02-26💻 cs

SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

O artigo apresenta o SF3D-RGB, uma arquitetura de aprendizado profundo que estima o fluxo de cena a partir de imagens monoculares e nuvens de pontos LiDAR esparsas, superando métodos de modalidade única e alcançando maior precisão com menor número de parâmetros.

Rajai Alhimdiat, Ramy Battrawy, René Schuster + 2 more2026-02-26💻 cs

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Este artigo apresenta uma arquitetura de aprendizado profundo baseada em U-Net para segmentar tumores cerebrais em ressonâncias magnéticas, com ênfase especial na delimitação automática do compartimento tumoral não realce, que é crucial para prever a sobrevida do paciente e o crescimento futuro do tumor, apesar de ter sido negligenciado em desafios recentes como o MICCAI.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Este artigo propõe uma abordagem livre de treinamento chamada "Dynamic Multimodal Activation Steering" que mitiga alucinações em Modelos de Linguagem e Visão Grandes (LVLMs) ajustando dinamicamente vetores de direção baseados no contexto e em cabeças de atenção específicas durante a inferência, superando assim os métodos existentes.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

O artigo apresenta o SurGo-R1, um modelo otimizado via RLHF com arquitetura de múltiplas etapas que identifica primeiro a fase cirúrgica para depois gerar zonas seguras e raciocínios contextuais, superando significativamente os modelos de visão-linguagem gerais ao abordar a natureza dependente da fase do raciocínio intraoperatório.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Este trabalho propõe um método de reconstrução de imagens que integra informações orientadas por dados em uma regularização baseada em dicionário convolucional através de mapas de esparsidade espacialmente adaptativos, resultando em uma abordagem interpretável e robusta a mudanças de distribuição que permite alterar o dicionário no momento da inferência, com desempenho superior em dados de MRI de baixo campo.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Este estudo demonstra que modelos de deep learning para delimitação de povoamentos florestais alcançam desempenho comparável utilizando modelos de altura do dossel derivados de fotogrametria aérea em vez de varredura a laser, indicando que a inclusão de modelos de terreno não melhora significativamente os resultados e que é possível criar grandes conjuntos de dados operacionais com dados temporalmente alinhados.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Este artigo apresenta um método inovador de segmentação de dentes que combina um codificador de três estágios com representações hierárquicas de características e modelagem de sequência bidirecional para superar as limitações de resolução fixa e o alto custo computacional dos transformadores, alcançando resultados superiores em conjuntos de dados dentários.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

O artigo propõe o TranX-Adapter, um adaptador leve que supera a diluição de atenção ao fundir características de artefatos e semânticas em Modelos Grandes de Linguagem Multimodal (MLLMs) para detecção robusta de imagens geradas por IA, alcançando melhorias significativas de até 6% na precisão.

Wenbin Wang, Yuge Huang, Jianqing Xu + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

O artigo apresenta o SigVLP, um modelo de pré-treinamento auto-supervisionado para volumes de tomografia computadorizada que utiliza Embeddings de Posição Rotacionais e alinhamento texto-volumento em nível de fatias para superar as limitações de tamanhos de entrada variáveis e melhorar a precisão da representação médica.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Este trabalho propõe uma nova abordagem de "Estrutura-para-Imagem" que utiliza a congruência de fase e restrições estruturais cruzadas para adaptar dados simulados a imagens reais de colonoscopia, permitindo uma estimativa de profundidade zero-shot com redução de 44,18% no erro quadrático médio em comparação com métodos existentes.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

O artigo apresenta o LiREC-Net, uma rede de aprendizado baseada em aprendizado que realiza calibração sem alvos e conjunta para sensores LiDAR, RGB e de eventos, superando métodos existentes limitados a pares bi-modais ao estabelecer um novo padrão de referência para fusão tri-modal.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Este artigo propõe um novo framework de paralelismo híbrido que combina particionamento baseado em condições e agendamento adaptativo de pipeline para acelerar significativamente a inferência de modelos de difusão condicional, reduzindo a latência em até 2,31 vezes sem comprometer a qualidade da geração.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

O artigo apresenta o SAPNet++, uma rede que aprimora a segmentação de instâncias baseada em pontos únicos ao integrar mecanismos de orientação de distância, mineração de caixas e refinamento de afinidade multiescala para resolver ambiguidades de granularidade e incertezas de limites, superando as limitações dos métodos anteriores em quatro conjuntos de dados desafiadores.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Este artigo apresenta o CUPID, um novo framework de desaprendizagem que mitiga o problema do "esquecimento de atalho" em modelos enviesados, utilizando a análise da nitidez do espaço de perda para particionar dados e atualizar seletivamente os caminhos causais e enviesados, garantindo assim um esquecimento robusto e eficaz.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Este artigo apresenta o FAQ, um novo benchmark em larga escala que avalia e aprimora a capacidade de raciocínio temporal de Modelos Visuais-Linguísticos na detecção de deepfakes em vídeo, superando as limitações das abordagens estáticas atuais através de uma hierarquia de três níveis e um conjunto de dados para ajuste fino.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

O artigo apresenta o XStreamVGGT, uma abordagem sem ajuste que integra poda e quantização para comprimir o cache KV em modelos de geometria visual, permitindo inferência de reconstrução 3D em streaming extremamente eficiente em memória com redução de 4,42 vezes no uso de memória e aceleração de 5,48 vezes na inferência.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

← Anterior Próximo →