BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

El artículo presenta BadCLIP++, un marco unificado que supera los desafíos de sigilo y persistencia en los ataques de puerta trasera contra modelos de aprendizaje contrastivo multimodal mediante un micro-gatillo QR de fusión semántica y técnicas de estabilización de parámetros, logrando una tasa de éxito del 99,99% con una inyección de datos maliciosos de solo el 0,3% y manteniendo su eficacia frente a múltiples defensas y ajustes finos.

Siyuan Liang, Yongcheng Jing, Yingjie Wang + 3 more2026-02-20💻 cs

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

El artículo presenta NRGS-SLAM, un sistema de SLAM monoculo no rígido para endoscopia basado en la representación 3D Gaussian Splatting que resuelve la ambigüedad entre el movimiento de la cámara y la deformación de los tejidos mediante un mapa de Gaussiana sensible a la deformación, logrando una estimación de pose más precisa y reconstrucciones de mayor calidad que los métodos actuales.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

El artículo presenta EntropyPrune, un marco de poda de tokens visuales para modelos de lenguaje grandes multimodales que utiliza la entropía matricial para identificar una capa de colapso de entropía y eliminar tokens redundantes de manera eficiente, logrando una reducción significativa de costos computacionales sin sacrificar el rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Este trabajo presenta GASS, un método que mejora la diversidad en la generación de imágenes a partir de texto mediante un muestreo esférico consciente de la geometría que controla explícitamente las variaciones dependientes e independientes del prompt en los incrustamientos de CLIP, logrando resultados diversos sin comprometer la fidelidad ni la alineación semántica.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs

Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

Este trabajo propone PESTGAN, una red generativa adversarial que integra leyes físicas mediante un módulo PhyCell para mejorar la superresolución de imágenes de ciclones tropicales, logrando una mayor fidelidad en la reconstrucción de estructuras nubosas meteorológicamente plausibles en comparación con los métodos existentes.

Ruoyi Zhang, Jiawei Yuan, Lujia Ye + 2 more2026-02-20💻 cs

Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

Este trabajo presenta un nuevo marco basado en "anclajes de unión" que, al codificar las relaciones geométricas y mecánicas locales entre el tejido y sus anexos anatómicos en cirugías colorrectales, mejora significativamente la predicción de puntos de agarre en entornos quirúrgicos complejos y variables mediante el aprendizaje automático.

Dennis N. Schneider, Lars Wagner, Daniel Rueckert + 1 more2026-02-20💻 cs

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Este estudio presenta un marco de aprendizaje profundo que extrae información pronóstica de videos de ultrasonido carotídeo para cuantificar el daño vascular y predecir eventos cardiovasculares y mortalidad con una precisión superior a los modelos tradicionales, demostrando el potencial de esta modalidad rutinaria para la evaluación de riesgos a gran escala.

Christoph Balada, Aida Romano-Martinez, Payal Varshney + 10 more2026-02-20🤖 cs.LG

Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Este trabajo propone un pipeline de generación de documentos falsificados de alta calidad, basado en aprendizaje contrastivo y redes auxiliares para la selección de recortes, que supera las limitaciones de los métodos anteriores y mejora significativamente el rendimiento de los modelos de detección de alteraciones en datos reales.

Mohamed Dhouib, Davide Buscaldi, Sonia Vanier + 1 more2026-02-20💻 cs

Polaffini: A feature-based approach for robust affine and polyaffine image registration

El artículo presenta Polaffini, un marco robusto y versátil para el registro de imágenes médicas que aprovecha modelos de segmentación profunda para generar puntos de referencia anatómicos y realizar transformaciones afines y poliafines precisas, superando a los métodos basados en intensidad en alineación estructural y ofreciendo una inicialización superior para registros no lineales posteriores.

Antoine Legouhy, Cosimo Campo, Ross Callaghan + 2 more2026-02-20💻 cs

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

SpectralGCD es un enfoque multimodal eficiente para el descubrimiento generalizado de categorías que utiliza similitudes imagen-concepto de CLIP y filtrado espectral para aprender representaciones semánticas robustas y alineadas, logrando un rendimiento superior al estado del arte con un costo computacional significativamente menor.

Lorenzo Caselli, Marco Mistretta, Simone Magistri + 1 more2026-02-20🤖 cs.AI