cs.CV artículos | Gist.Science

Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning

Este trabajo presenta SPL, un marco de entrenamiento unificado que combina etiquetado pseudo-semántico y aprendizaje de prototipos para lograr una detección robusta de objetos 3D en escenarios no supervisados y con supervisión escasa, superando el estado del arte en conjuntos de datos como KITTI y nuScenes.

Yushen He2026-02-26💻 cs

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

El artículo presenta AHAN, una red neuronal con atención jerárquica asimétrica que mejora la verificación de rostros de gemelos idénticos al analizar variaciones no genéticas mediante módulos de atención cruzada multinivel y de asimetría facial, logrando una precisión del 92,3% en el conjunto de datos ND_TWIN.

Hoang-Nhat Nguyen2026-02-26💻 cs

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

El artículo presenta WaterVIB, un marco teórico basado en el Cuello de Botella de Información Variacional que logra una robustez superior frente a ataques de regeneración generativa al forzar al codificador a aprender una representación mínima y suficiente del mensaje, filtrando así los detalles de la imagen original susceptibles a alteraciones.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

Este artículo presenta TEA-CXA, un agente de aprendizaje multimodal para el análisis de radiografías de tórax que utiliza aprendizaje por refuerzo para evaluar y resolver conflictos entre herramientas de IA mediante el aprendizaje empírico de su fiabilidad específica por tipo de consulta, superando así a los métodos existentes.

Zheang Huai, Honglong Yang, Xiaomeng Li2026-02-26💻 cs

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

El artículo presenta LiLo-VLA, un marco modular que logra generalización cero-shot en tareas de manipulación a largo plazo mediante la desacoplación del transporte y la interacción, superando significativamente a los modelos VLA existentes en simulaciones y evaluaciones del mundo real al mitigar los errores en cascada y facilitar la recuperación de fallos.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess

Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Este trabajo propone un marco novedoso para la reconstrucción 3D de escenas exteriores con vistas escasas y no poseídas, que mejora la calidad geométrica y reduce los artefactos mediante la restauración bidireccional de pseudo-vistas guiada por difusión y una gestión de Gaussianos basada en la percepción de la escena.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

IHF-Harmony es un marco unificado de flujo invertible jerárquico que logra una armonización de alta fidelidad en imágenes de resonancia magnética multimodales mediante datos no apareados, garantizando la preservación anatómica y superando a los métodos existentes en estudios de imagen a gran escala.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs

VasGuideNet: Vascular Topology-Guided Couinaud Liver Segmentation with Structural Contrastive Loss

VasGuideNet es un marco de segmentación hepática de Couinaud pionero que mejora la precisión anatómica y la generalización al integrar explícitamente la topología vascular mediante redes de grafos y una pérdida de contraste estructural, superando a los métodos existentes en métricas clave como el coeficiente Dice.

Chaojie Shen, Jingjun Gu, Zihao Zhao + 4 more2026-02-26💻 cs

Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

El artículo presenta GPOcc, un marco que aprovecha los priores de geometría visual generalizables para mejorar la predicción de ocupación 3D mediante la extensión de puntos superficiales a volúmenes representados como primitivas gaussianas, logrando mejoras significativas en precisión y velocidad en comparación con los métodos anteriores.

Changqing Zhou, Yueru Luo, Changhao Chen2026-02-26💻 cs

MultiAnimate: Pose-Guided Image Animation Made Extensible

El artículo presenta MultiAnimate, un marco extensible basado en Transformadores de Difusión que utiliza asignadores y adaptadores de identificadores para lograr una animación de imágenes de múltiples personajes con alta fidelidad, resolviendo problemas de confusión de identidad y oclusiones, y generalizando a escenarios con más personajes de los vistos durante el entrenamiento.

Yingcheng Hu, Haowen Gong, Chuanguang Yang + 3 more2026-02-26💻 cs

SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction

El artículo presenta SEF-MAP, un marco innovador que mejora la predicción robusta de mapas HD multimodales mediante la descomposición de características en subespacios semánticos especializados y un mecanismo de fusión adaptativo basado en la incertidumbre, logrando un rendimiento superior en condiciones degradadas.

Haoxiang Fu, Lingfeng Zhang, Hao Li + 7 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Este artículo presenta un ataque de inyección semántica que preserva la coherencia (CSI) y utiliza modelos de lenguaje grandes para manipular selectivamente los significados de las imágenes generadas, demostrando así que las marcas de agua semánticas actuales son vulnerables a alteraciones que engañan a los detectores sin romper la coherencia global de la imagen.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Este trabajo revela que las representaciones condicionales en los Transformers de difusión presentan un cuello de botella semántico caracterizado por una redundancia extrema y una concentración de información en pocas dimensiones, lo que permite eliminar hasta dos tercios del espacio de incrustación sin afectar, e incluso mejorar, la calidad de la generación.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

Virtual Biopsy for Intracranial Tumors Diagnosis on MRI

Este artículo presenta el primer conjunto de datos público verificado por biopsia (ICT-MRI) y un marco de trabajo de "biopsia virtual" que utiliza modelos de visión-lingüística y mecanismos de atención para predecir con precisión la patología de tumores intracraneales en resonancia magnética, superando significativamente a los métodos existentes y mitigando los riesgos de las biopsias invasivas.

Xinzhe Luo, Shuai Shao, Yan Wang + 3 more2026-02-26🤖 cs.AI

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

El artículo presenta UniHand, un marco unificado basado en difusión que integra la estimación y la generación de movimientos de manos en 4D mediante la síntesis condicional de trayectorias coherentes a partir de señales heterogéneas, logrando así un rendimiento robusto incluso ante oclusiones severas y secuencias incompletas.

Zhihao Sun, Tong Wu, Ruirui Tu + 2 more2026-02-26💻 cs

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

El artículo presenta SC-VLA, un modelo de visión-lenguaje-acción que logra auto-mejora mediante una imaginación de mundo dispersa y un módulo de refinamiento de acciones en línea, superando a los enfoques existentes en tareas de manipulación robótica con mayor eficiencia y tasa de éxito tanto en simulación como en entornos reales.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Axial-Centric Cross-Plane Attention for 3D Medical Image Classification

Este trabajo propone una arquitectura de atención cruzada centrada en el plano axial que, al imitar el flujo de interpretación clínica y aprovechar un modelo fundacional médico, supera a los métodos existentes en la clasificación de imágenes médicas 3D al capturar las dependencias asimétricas entre los planos anatómicos.

Doyoung Park, Jinsoo Kim, Lohendran Baskaran2026-02-26💻 cs

Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle

El artículo presenta LieFlow, un marco de representación radiante dinámica que modela el movimiento en el grupo de Lie SE(3) para lograr una consistencia geométrica y física superior en la síntesis de vistas y la coherencia temporal de escenas 4D complejas en comparación con los métodos basados en NeRF.

Weidong Qiao, Wangmeng Zuo, Hui Li2026-02-26💻 cs

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

El artículo presenta la VCC-Net, una red de diagnóstico colaborativo guiada por la cognición visual que integra las trazas de búsqueda visual de los radiólogos con la inferencia del modelo para mejorar la precisión, la interpretabilidad y la alineación clínica en el diagnóstico de radiografías de tórax.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

El artículo presenta HybridINR-PCGC, un marco híbrido innovador que combina modelos preentrenados y representaciones neuronales implícitas para lograr una compresión de geometría de nubes de puntos sin pérdidas con mayor eficiencia y robustez frente a métodos existentes.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

← Anterior Siguiente →