Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Este trabajo presenta un marco unificado basado en física que utiliza Modelos Visuales-Lingüísticos (VLM) y una nueva representación de Dinámicas de Movimiento Relativo (RMD) para sintetizar automáticamente interacciones humano-objeto a largo plazo sin necesidad de ingeniería manual de recompensas, superando a los métodos existentes en naturalidad y generalización.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Este artículo presenta "Inception", el primer ataque de jailbreak multi-turno contra sistemas de generación de imágenes texto-a-imagen que explota sus mecanismos de memoria mediante segmentación semántica y recursión, logrando una tasa de éxito un 20% superior a los métodos actuales al evadir los filtros de seguridad.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Este artículo caracteriza el Patrón de Ruido de Desenfoque Sintético (SDNP) de Apple en las imágenes de modo retrato, proponiendo un método para su estimación precisa y demostrando su utilidad para la trazabilidad forense de dispositivos iOS y para mejorar la verificación de la fuente de la cámara al reducir falsos positivos en el análisis PRNU.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

El artículo presenta MoB, un nuevo método de poda de tokens visuales basado en la teoría de recubrimiento que reformula el problema como un caso de cobertura bi-objetivo para equilibrar dinámicamente la alineación con el prompt y la preservación visual, logrando así una reducción significativa de tokens con pérdidas de rendimiento mínimas en modelos multimodales avanzados.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Este artículo presenta el conjunto de datos Urdu Newspaper Benchmark (UNB) y demuestra que los modelos de lenguaje grande (LLM), especialmente tras un ajuste fino, superan a los sistemas de reconocimiento óptico de caracteres tradicionales en la transcripción de periódicos en urdu, abordando eficazmente los desafíos del script Nastaliq y las imágenes de baja calidad mediante técnicas avanzadas de extracción y superresolución.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Este trabajo presenta "Feature Mixing", un método multimodal extremadamente simple y rápido para la síntesis de valores atípicos que mejora la detección y segmentación de datos fuera de distribución, junto con el nuevo conjunto de datos CARLA-OOD, logrando un rendimiento de vanguardia con una aceleración de hasta 370 veces en comparación con métodos anteriores.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artículo presenta el conjunto de datos BAH, un recurso multimodal con 1.427 videos de 300 participantes etiquetados por expertos para el reconocimiento automático de ambivalencia y hesitación en intervenciones digitales de cambio de comportamiento, junto con resultados de referencia que destacan la necesidad de modelos espaciotemporales adaptados.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

El trabajo presenta TADA, un marco que mejora la generalización de los clasificadores de imágenes al aumentar selectivamente solo el 30-40% de los datos de entrenamiento (aquellas muestras no aprendidas tempranamente) mediante imágenes sintéticas generadas por modelos de difusión, logrando un rendimiento superior al de métodos que aumentan todo el conjunto de datos y superando incluso a optimizadores avanzados como SAM.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Este trabajo presenta un sistema de monitoreo de vibraciones estructurales de bajo costo y consumo energético que utiliza una capa difractiva óptica optimizada junto con una red neuronal superficial para extraer y reconstruir espectros de vibración 3D de estructuras de forma remota y en tiempo real, superando significativamente la precisión de los métodos ópticos convencionales.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

El paper presenta EgoWorld, un marco novedoso que supera las limitaciones de los métodos actuales al reconstruir vistas egocéntricas a partir de observaciones exocéntricas ricas (como nubes de puntos, poses de manos y descripciones textuales) mediante la reproyección de nubes de puntos y modelos de difusión, logrando un rendimiento de vanguardia y una generalización robusta en múltiples conjuntos de datos y escenarios del mundo real.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Este trabajo presenta Fast Equivariant Imaging (FEI), un marco de aprendizaje no supervisado que acelera significativamente el entrenamiento de redes de imagen profunda sin datos reales mediante la reformulación del problema de optimización con multiplicadores de Lagrange y desnoisadores PnP, logrando una velocidad 10 veces superior y mejor rendimiento en tareas como la reconstrucción de CT y la restauración de imágenes.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

Reinforcing Video Reasoning Segmentation to Think Before It Segments

El artículo presenta Veason-R1, un modelo de lenguaje e visión grande especializado en segmentación de razonamiento en video que, mediante un entrenamiento con optimización de política relativa grupal (GRPO) e inicialización de cadena de pensamiento (CoT), supera el estado del arte al mejorar la interpretabilidad, la consistencia temporal y la precisión espacial en la localización de objetos.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs