Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

O artigo propõe a VCC-Net, uma rede colaborativa guiada pela cognição visual que integra os rastros de busca visual de radiologistas (capturados por eye-tracking ou mouse) com inferência de IA para criar um sistema de diagnóstico de radiografias de tórax mais confiável, interpretável e alinhado ao fluxo de trabalho clínico, alcançando alta precisão em conjuntos de dados públicos e privados.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

O artigo propõe o HybridINR-PCGC, um novo framework híbrido de compressão geométrica de nuvens de pontos sem perdas que combina redes pré-treinadas e representações neurais implícitas para superar as limitações de dependência de dados e ineficiência de codificação, alcançando reduções significativas na taxa de bits e melhor eficiência de codificação.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Este artigo apresenta o E-comIQ-ZH, um novo framework que inclui o primeiro dataset especializado (E-comIQ-18k) com raciocínio em cadeia e um modelo de avaliação (E-comIQ-M) alinhado a especialistas, visando superar as limitações das métricas atuais na avaliação automática e detalhada de pôsteres de e-commerce em chinês.

Meiqi Sun, Mingyu Li, Junxiong Zhu2026-02-26💻 cs

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Este artigo apresenta uma arquitetura de aprendizado profundo baseada em U-Net para segmentar tumores cerebrais em ressonâncias magnéticas, com ênfase especial na delimitação automática do compartimento tumoral não realce, que é crucial para prever a sobrevida do paciente e o crescimento futuro do tumor, apesar de ter sido negligenciado em desafios recentes como o MICCAI.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Este artigo propõe uma abordagem livre de treinamento chamada "Dynamic Multimodal Activation Steering" que mitiga alucinações em Modelos de Linguagem e Visão Grandes (LVLMs) ajustando dinamicamente vetores de direção baseados no contexto e em cabeças de atenção específicas durante a inferência, superando assim os métodos existentes.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Este trabalho propõe um método de reconstrução de imagens que integra informações orientadas por dados em uma regularização baseada em dicionário convolucional através de mapas de esparsidade espacialmente adaptativos, resultando em uma abordagem interpretável e robusta a mudanças de distribuição que permite alterar o dicionário no momento da inferência, com desempenho superior em dados de MRI de baixo campo.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Este estudo demonstra que modelos de deep learning para delimitação de povoamentos florestais alcançam desempenho comparável utilizando modelos de altura do dossel derivados de fotogrametria aérea em vez de varredura a laser, indicando que a inclusão de modelos de terreno não melhora significativamente os resultados e que é possível criar grandes conjuntos de dados operacionais com dados temporalmente alinhados.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Este artigo apresenta um método inovador de segmentação de dentes que combina um codificador de três estágios com representações hierárquicas de características e modelagem de sequência bidirecional para superar as limitações de resolução fixa e o alto custo computacional dos transformadores, alcançando resultados superiores em conjuntos de dados dentários.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

O artigo apresenta o SigVLP, um modelo de pré-treinamento auto-supervisionado para volumes de tomografia computadorizada que utiliza Embeddings de Posição Rotacionais e alinhamento texto-volumento em nível de fatias para superar as limitações de tamanhos de entrada variáveis e melhorar a precisão da representação médica.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Este trabalho propõe uma nova abordagem de "Estrutura-para-Imagem" que utiliza a congruência de fase e restrições estruturais cruzadas para adaptar dados simulados a imagens reais de colonoscopia, permitindo uma estimativa de profundidade zero-shot com redução de 44,18% no erro quadrático médio em comparação com métodos existentes.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

O artigo apresenta o SAPNet++, uma rede que aprimora a segmentação de instâncias baseada em pontos únicos ao integrar mecanismos de orientação de distância, mineração de caixas e refinamento de afinidade multiescala para resolver ambiguidades de granularidade e incertezas de limites, superando as limitações dos métodos anteriores em quatro conjuntos de dados desafiadores.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Este artigo apresenta o FAQ, um novo benchmark em larga escala que avalia e aprimora a capacidade de raciocínio temporal de Modelos Visuais-Linguísticos na detecção de deepfakes em vídeo, superando as limitações das abordagens estáticas atuais através de uma hierarquia de três níveis e um conjunto de dados para ajuste fino.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

O artigo apresenta o XStreamVGGT, uma abordagem sem ajuste que integra poda e quantização para comprimir o cache KV em modelos de geometria visual, permitindo inferência de reconstrução 3D em streaming extremamente eficiente em memória com redução de 4,42 vezes no uso de memória e aceleração de 5,48 vezes na inferência.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs