DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Este artículo presenta DP-aware AdaLN-Zero, un mecanismo de condicionamiento sensible a la sensibilidad que mitiga los gradientes de cola pesada inducidos por contextos heterogéneos en modelos de difusión, mejorando así la utilidad del entrenamiento bajo privacidad diferencial sin alterar el mecanismo DP-SGD ni sacrificar el rendimiento estándar.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Este trabajo presenta un módulo plug-and-play de bajo costo que utiliza una métrica de relación de frecuencias para cuantificar y reequilibrar dinámicamente las preferencias de las modalidades durante el entrenamiento, mejorando así la robustez y el rendimiento de los modelos de comprensión de imágenes multimodales ante la ausencia de datos.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

Este artículo presenta una herramienta de anotación semiautomática de código abierto basada en Napari que integra el modelo Medical-SAM2 para mejorar la eficiencia en la anotación de volúmenes médicos 2D y 3D mediante la propagación de máscaras a partir de prompts espaciales, ofreciendo un flujo de trabajo local unificado para la navegación, corrección interactiva y exportación cuantitativa de datos de investigación.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Este trabajo presenta un enfoque práctico para la construcción de un conjunto de datos de evaluación de calidad audiovisual mediante crowdsourcing, resultando en YT-NTU-AVQ, el conjunto de datos más grande y diverso hasta la fecha, que supera las limitaciones de escala y diversidad de los existentes mediante anotaciones fiables en entornos variados y una amplia cobertura de escenarios semánticos y niveles de calidad.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Este artículo presenta un marco novedoso para la predicción de ocupación de vocabulario abierto en interiores mediante una sola cámara, que utiliza una supervisión puramente geométrica y Gaussians de lenguaje incrustados con un enfoque de temperatura progresiva para superar las limitaciones de los métodos existentes y lograr un rendimiento superior en el conjunto de datos Occ-ScanNet.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Este trabajo presenta ViCLIP-OT, el primer modelo fundacional visión-idioma diseñado específicamente para la recuperación de imágenes y texto en vietnamita, que integra aprendizaje contrastivo con una pérdida de transporte óptimo regularizada por grafos de similitud para superar significativamente a los modelos existentes en entornos de recursos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Este trabajo presenta MoFit, un marco de inferencia de membresía sin necesidad de subtítulos que utiliza optimización de surrogados ajustados al modelo para generar incrustaciones sintéticas que superan a los métodos basados en VLM y rivalizan con las técnicas dependientes de subtítulos en la detección de memorización en modelos de difusión latente.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

El artículo presenta UFO-DETR, un marco de detección de objetos de extremo a extremo diseñado para imágenes de UAV que integra una red base LSKNet, módulos DAttention y AIFI, y un nuevo bloque DynFreq-C3 para mejorar la detección de objetos pequeños mediante el aprendizaje de relaciones espaciales multiescala y la realce de características en el dominio de la frecuencia, logrando un equilibrio superior entre precisión y eficiencia computacional.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

El artículo presenta IRSDE-Despeckle, un modelo de difusión basado en ecuaciones diferenciales estocásticas que, tras ser entrenado con datos simulados, supera a los métodos existentes en la eliminación de ruido de speckle de imágenes de ultrasonido preservando los bordes anatómicos y ofreciendo una estimación de incertidumbre para identificar regiones problemáticas.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

HulluEdit es un marco de intervención de un solo paso y sin modelos de referencia que mitiga las alucinaciones en los Modelos Grandes de Lenguaje y Visión mediante la edición de subespacios ortogonales, lo que permite suprimir selectivamente patrones alucinatorios sin alterar la evidencia visual, logrando así un rendimiento superior en benchmarks de reducción de alucinaciones mientras se preservan las capacidades generales del modelo.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs