WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

El artículo presenta WaterVIB, un marco teórico basado en el Cuello de Botella de Información Variacional que logra una robustez superior frente a ataques de regeneración generativa al forzar al codificador a aprender una representación mínima y suficiente del mensaje, filtrando así los detalles de la imagen original susceptibles a alteraciones.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

El artículo presenta LiLo-VLA, un marco modular que logra generalización cero-shot en tareas de manipulación a largo plazo mediante la desacoplación del transporte y la interacción, superando significativamente a los modelos VLA existentes en simulaciones y evaluaciones del mundo real al mitigar los errores en cascada y facilitar la recuperación de fallos.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess

MultiAnimate: Pose-Guided Image Animation Made Extensible

El artículo presenta MultiAnimate, un marco extensible basado en Transformadores de Difusión que utiliza asignadores y adaptadores de identificadores para lograr una animación de imágenes de múltiples personajes con alta fidelidad, resolviendo problemas de confusión de identidad y oclusiones, y generalizando a escenarios con más personajes de los vistos durante el entrenamiento.

Yingcheng Hu, Haowen Gong, Chuanguang Yang + 3 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Este artículo presenta un ataque de inyección semántica que preserva la coherencia (CSI) y utiliza modelos de lenguaje grandes para manipular selectivamente los significados de las imágenes generadas, demostrando así que las marcas de agua semánticas actuales son vulnerables a alteraciones que engañan a los detectores sin romper la coherencia global de la imagen.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Este trabajo revela que las representaciones condicionales en los Transformers de difusión presentan un cuello de botella semántico caracterizado por una redundancia extrema y una concentración de información en pocas dimensiones, lo que permite eliminar hasta dos tercios del espacio de incrustación sin afectar, e incluso mejorar, la calidad de la generación.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

Virtual Biopsy for Intracranial Tumors Diagnosis on MRI

Este artículo presenta el primer conjunto de datos público verificado por biopsia (ICT-MRI) y un marco de trabajo de "biopsia virtual" que utiliza modelos de visión-lingüística y mecanismos de atención para predecir con precisión la patología de tumores intracraneales en resonancia magnética, superando significativamente a los métodos existentes y mitigando los riesgos de las biopsias invasivas.

Xinzhe Luo, Shuai Shao, Yan Wang + 3 more2026-02-26🤖 cs.AI