cs.CV artigos | Gist.Science

Perceptual Quality Optimization of Image Super-Resolution

Este artigo propõe a Efficient-PBAN, uma rede de atenção bidirecional eficiente que otimiza a super-resolução de imagens para a qualidade perceptual humana, utilizando um novo conjunto de dados e uma métrica de perda diferenciável para superar o compromisso tradicional entre fidelidade e qualidade visual.

Wei Zhou, Yixiao Li, Hadi Amirpour + 4 more2026-02-26⚡ eess

Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning

O artigo apresenta o SPL, um quadro de treinamento unificado que combina rotulagem pseudo-semântica e aprendizado de protótipos para superar os desafios de baixa qualidade de rótulos e instabilidade de características, permitindo detecção de objetos 3D eficaz tanto em cenários não supervisionados quanto com supervisão esparsa.

Yushen He2026-02-26💻 cs

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

O artigo propõe a AHAN (Asymmetric Hierarchical Attention Network), uma nova arquitetura que utiliza análise hierárquica de atenção e módulos focados em assimetria facial para superar os desafios da verificação de gêmeos idênticos, alcançando 92,3% de precisão no conjunto de dados ND_TWIN.

Hoang-Nhat Nguyen2026-02-26💻 cs

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

O artigo apresenta o WaterVIB, um framework fundamentado no Princípio do Gargalo de Informação Variacional que reformula a codificação de marcas d'água para aprender estatísticas suficientes mínimas, filtrando detalhes do conteúdo original e garantindo assim uma robustez superior contra ataques de regeneração baseados em AIGC.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

Este artigo apresenta o TEA-CXA, um agente especializado em raios-X de tórax que utiliza aprendizado agêntico multimodal para aprender empiricamente a confiabilidade de diferentes ferramentas e resolver conflitos entre elas, superando os métodos atuais em análise médica.

Zheang Huai, Honglong Yang, Xiaomeng Li2026-02-26💻 cs

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

O artigo apresenta o LiLo-VLA, um framework modular que alcança generalização zero-shot em tarefas de manipulação de longo horizonte ao desacoplar transporte e interação, superando significativamente modelos VLA existentes em benchmarks de simulação e no mundo real.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess

Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Este artigo propõe um novo framework para reconstrução 3D de cenas externas com vistas esparsas e não posicionadas, que utiliza restauração bidirecional de pseudo-quadros guiada por difusão e uma estratégia de gerenciamento de Gaussianas baseada em percepção da cena para melhorar a completude, a consistência geométrica e suprir artefatos flutuantes.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

O artigo apresenta o IHF-Harmony, um framework unificado baseado em fluxo hierárquico invertível que realiza harmonização de ressonância magnética multimodais sem dados pareados, garantindo mapeamento biunívoco e reconstrução sem perdas para preservar a anatomia enquanto remove artefatos e melhora o desempenho em tarefas subsequentes.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs

VasGuideNet: Vascular Topology-Guided Couinaud Liver Segmentation with Structural Contrastive Loss

O artigo apresenta o VasGuideNet, um novo framework de segmentação hepática que utiliza topologia vascular codificada via GCNs e uma perda contrastiva estrutural para superar as limitações dos métodos existentes, alcançando resultados superiores em precisão e consistência anatômica.

Chaojie Shen, Jingjun Gu, Zihao Zhao + 4 more2026-02-26💻 cs

Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

O artigo apresenta o GPOcc, um framework que generaliza priores de geometria visual para a previsão de ocupação 3D monocular e em fluxo, utilizando primitivas Gaussianas e uma estratégia de atualização incremental para superar os métodos anteriores em precisão e eficiência.

Changqing Zhou, Yueru Luo, Changhao Chen2026-02-26💻 cs

MultiAnimate: Pose-Guided Image Animation Made Extensible

O artigo apresenta o MultiAnimate, um framework extensível baseado em Diffusion Transformers que supera os desafios de confusão de identidade e oclusões na animação de imagens com múltiplos personagens, permitindo a geração de vídeos realistas com generalização para cenários com mais personagens do que os vistos durante o treinamento.

Yingcheng Hu, Haowen Gong, Chuanguang Yang + 3 more2026-02-26💻 cs

SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction

O artigo apresenta o SEF-MAP, um framework inovador para previsão robusta de mapas HD multimodais que utiliza fusão de especialistas em subespaços semânticos e um mecanismo de gate baseado em incerteza para superar inconsistências entre LiDAR e câmeras, alcançando desempenho superior em benchmarks como nuScenes e Argoverse2.

Haoxiang Fu, Lingfeng Zhang, Hao Li + 7 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Este artigo apresenta o ataque CSI, que utiliza a capacidade de raciocínio estruturado de Grandes Modelos de Linguagem (LLMs) para injetar alterações semânticas localmente refinadas, mas globalmente coerentes, demonstrando que essas manipulações conseguem burlar eficazmente as marcas d'água semânticas projetadas para proteger a proveniência de imagens geradas.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Este trabalho revela um gargalo semântico nos embeddings condicionais de Transformers de difusão, demonstrando que a redundância extrema e a concentração de informação em poucas dimensões permitem podar até dois terços do espaço de embedding sem prejudicar a qualidade da geração, oferecendo assim novas perspectivas para mecanismos de condicionamento mais eficientes.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

Virtual Biopsy for Intracranial Tumors Diagnosis on MRI

Este artigo apresenta o primeiro benchmark público com verificação por biópsia (ICT-MRI) e um framework de "biópsia virtual" baseado em aprendizado profundo que supera os desafios de escassez de dados e heterogeneidade tumoral, alcançando mais de 90% de precisão na classificação não invasiva de tumores intracranianos em ressonância magnética.

Xinzhe Luo, Shuai Shao, Yan Wang + 3 more2026-02-26🤖 cs.AI

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

O artigo apresenta o UniHand, um modelo unificado baseado em difusão que integra estimativa e geração de movimentos 4D da mão em uma única tarefa de síntese condicional, permitindo o processamento robusto de entradas heterogêneas e a transferência de conhecimento entre essas tarefas para lidar com oclusões e sequências incompletas.

Zhihao Sun, Tong Wu, Ruirui Tu + 2 more2026-02-26💻 cs

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

O artigo propõe o SC-VLA, um modelo de visão-linguagem-ação que alcança autoaperfeiçoamento e maior robustez em tarefas de manipulação robótica ao integrar uma imaginação de mundo esparsa para prever o progresso da tarefa e um módulo de refinamento de ações online que ajusta as trajetórias com base nessas previsões, superando os métodos existentes tanto em simulação quanto em cenários do mundo real.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Axial-Centric Cross-Plane Attention for 3D Medical Image Classification

Este artigo propõe uma arquitetura de atenção cruzada centrada no plano axial, que utiliza o modelo MedDINOv3 e transformadores para capturar dependências assimétricas entre planos anatômicos, alinhando-se ao fluxo de trabalho clínico e superando modelos existentes na classificação de imagens médicas 3D.

Doyoung Park, Jinsoo Kim, Lohendran Baskaran2026-02-26💻 cs

Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle

O artigo apresenta o LieFlow, um novo framework de representação radiante dinâmica que utiliza a álgebra de Lie e o grupo SE(3) para modelar e prever campos de movimento 4D, garantindo consistência geométrica e física superior em cenas com movimentos rígidos e não rígidos em comparação com métodos baseados em NeRF.

Weidong Qiao, Wangmeng Zuo, Hui Li2026-02-26💻 cs

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

O artigo propõe a VCC-Net, uma rede colaborativa guiada pela cognição visual que integra os rastros de busca visual de radiologistas (capturados por eye-tracking ou mouse) com inferência de IA para criar um sistema de diagnóstico de radiografias de tórax mais confiável, interpretável e alinhado ao fluxo de trabalho clínico, alcançando alta precisão em conjuntos de dados públicos e privados.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

← Anterior Próximo →