Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Este artigo propõe um novo framework para reconstrução 3D de cenas externas com vistas esparsas e não posicionadas, que utiliza restauração bidirecional de pseudo-quadros guiada por difusão e uma estratégia de gerenciamento de Gaussianas baseada em percepção da cena para melhorar a completude, a consistência geométrica e suprir artefatos flutuantes.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

O artigo apresenta o IHF-Harmony, um framework unificado baseado em fluxo hierárquico invertível que realiza harmonização de ressonância magnética multimodais sem dados pareados, garantindo mapeamento biunívoco e reconstrução sem perdas para preservar a anatomia enquanto remove artefatos e melhora o desempenho em tarefas subsequentes.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Este artigo apresenta o ataque CSI, que utiliza a capacidade de raciocínio estruturado de Grandes Modelos de Linguagem (LLMs) para injetar alterações semânticas localmente refinadas, mas globalmente coerentes, demonstrando que essas manipulações conseguem burlar eficazmente as marcas d'água semânticas projetadas para proteger a proveniência de imagens geradas.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Este trabalho revela um gargalo semântico nos embeddings condicionais de Transformers de difusão, demonstrando que a redundância extrema e a concentração de informação em poucas dimensões permitem podar até dois terços do espaço de embedding sem prejudicar a qualidade da geração, oferecendo assim novas perspectivas para mecanismos de condicionamento mais eficientes.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

O artigo propõe o SC-VLA, um modelo de visão-linguagem-ação que alcança autoaperfeiçoamento e maior robustez em tarefas de manipulação robótica ao integrar uma imaginação de mundo esparsa para prever o progresso da tarefa e um módulo de refinamento de ações online que ajusta as trajetórias com base nessas previsões, superando os métodos existentes tanto em simulação quanto em cenários do mundo real.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

O artigo propõe a VCC-Net, uma rede colaborativa guiada pela cognição visual que integra os rastros de busca visual de radiologistas (capturados por eye-tracking ou mouse) com inferência de IA para criar um sistema de diagnóstico de radiografias de tórax mais confiável, interpretável e alinhado ao fluxo de trabalho clínico, alcançando alta precisão em conjuntos de dados públicos e privados.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI