Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

El paper presenta EditedID, un marco de alineación, desentrelado y entrelado sin entrenamiento que supera las limitaciones actuales de los modelos de edición multimodal al garantizar una restauración facial robusta y consistente con la identidad original y los elementos editados mediante estrategias de mezcla adaptativa, resolución híbrida y mecanismos de compuerta atencional.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

El artículo presenta Person2Drive, un marco integral y un benchmark de código abierto que aborda los desafíos de la conducción autónoma personalizada de extremo a extremo mediante la generación de datos diversificados, métricas cuantitativas para evaluar estilos de conducción individuales y un modelo de recompensa que adapta los sistemas a los comportamientos específicos de cada usuario.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Este trabajo propone ZS-MIL, un método que utiliza las incrustaciones de texto de modelos de visión-lingüística preentrenados para inicializar los clasificadores en el aprendizaje de múltiples instancias, mejorando así la adaptación con pocos ejemplos en la clasificación de imágenes de histopatología en comparación con las inicializaciones aleatorias.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

El artículo presenta IFA-Net, un marco innovador que detecta y localiza con precisión imágenes generadas por IA modelando la "realidad" a través de un autoencoder enmascarado congelado y un proceso iterativo de dos etapas que amplifica las desviaciones en la reconstrucción de regiones manipuladas, superando significativamente a los métodos existentes en benchmarks de inpainting.

Jiangling Zhang, Shuxuan Gao, Bofan Liu + 4 more2026-02-24💻 cs

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Este trabajo presenta un marco de cuantización post-entrenamiento conjunta para Vision Transformers que, mediante la optimización global sin datos etiquetados y el uso de una estrategia de generación de datos basada en Stable Diffusion Turbo guiada por prompts aprendidos, logra un rendimiento de vanguardia en configuraciones de bits extremadamente bajos para modelos como ViT, DeiT y Swin-T.

Shile Li, Markus Karmann, Onay Urfalioglu2026-02-24💻 cs

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

El artículo presenta TIACam, un marco de aprendizaje de características invariantes anclado en texto con auto-aumento que logra una marca de agua cero robusta frente a la recaptura mediante cámaras al integrar un aumentador automático diferenciable, alineación adversaria multimodal y una cabeza de marca de agua que vincula mensajes binarios en el espacio de características sin modificar los píxeles de la imagen.

Abdullah All Tanvir, Agnibh Dasgupta, Xin Zhong2026-02-24⚡ eess

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

El artículo presenta SLD-Font, un modelo de difusión que logra una disociación a nivel estructural entre contenido y estilo para la generación de fuentes chinas con pocos ejemplos, mejorando la fidelidad del estilo y la precisión del contenido mediante el uso de plantillas de estructura SimSun, mecanismos de atención cruzada con CLIP, un módulo de eliminación de ruido de fondo y una estrategia de ajuste fino eficiente en parámetros.

Jie Li, Suorong Yang, Jian Zhao + 1 more2026-02-24🤖 cs.AI