World2Act: Latent Action Post-Training via Skill-Compositional World Models

El artículo presenta World2Act, un marco de entrenamiento posterior que alinea las acciones de los modelos de visión-lenguaje-acción directamente con los latentes de dinámica de video de modelos del mundo mediante un objetivo de contraste, superando las limitaciones de los métodos basados en píxeles y mejorando la generalización mediante la descomposición automática de habilidades para modelos de mundo composicionales.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Este artículo presenta un método de olvido de instancias sin prompts para modelos de difusión que, mediante un enfoque basado en sustitutos, edición de imágenes y cirugía de gradientes, permite eliminar selectivamente salidas indeseadas e inexpresables mediante texto (como rostros específicos o representaciones culturalmente inexactas) mientras preserva la integridad del modelo.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

El paper presenta SignSparK, un marco de producción de lenguaje de señas multilingüe a gran escala que utiliza aprendizaje de fotogramas clave dispersos y un modelo de segmentación temporal eficiente (FAST) para generar secuencias de señas 3D fluidas y precisas, superando las limitaciones actuales mediante un enfoque de coincidencia de flujo condicional que permite edición espaciotemporal y renderizado fotorrealista.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artículo presenta WanderBench, el primer benchmark global de geolocalización basado en escenarios navegables, y GeoAoT, un marco que mejora la capacidad de localización de los modelos multimodales grandes mediante la generación de planes de acción interactivos en lugar de cadenas de razonamiento puramente textuales.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

El artículo presenta UniPINN, un marco unificado de Redes Neuronales Informadas por Física (PINN) que aborda los desafíos del aprendizaje multi-tarea en ecuaciones de Navier-Stokes diversas mediante una arquitectura compartida-especializada, un mecanismo de atención entre flujos y una asignación dinámica de pesos, logrando así una mayor precisión y estabilidad en comparación con los métodos existentes.

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

El artículo presenta StructDamage, un nuevo conjunto de datos unificado y a gran escala que agrupa y reetiqueta más de 78.000 imágenes de nueve tipos de superficies para entrenar y evaluar modelos de aprendizaje profundo capaces de detectar y clasificar grietas y defectos estructurales con alta precisión y generalización.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Este artículo presenta un método de aprendizaje auto-supervisado espacial basado en autoencodificadores para la selección de picos en imágenes de espectrometría de masas, junto con una nueva evaluación basada en máscaras de segmentación experta, demostrando un rendimiento superior a los métodos actuales en la identificación de picos con estructura espacial en diversos conjuntos de datos.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

El artículo presenta IMTBench, un nuevo benchmark de 2.500 muestras que evalúa la traducción automática de texto en imágenes (IIMT) en múltiples escenarios y idiomas mediante métricas de calidad de traducción, preservación del fondo y alineación cruzada entre el texto generado y la imagen renderizada, revelando importantes brechas de rendimiento en los sistemas actuales.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Este trabajo demuestra que la exposición ingenua de las capacidades de refinamiento y razonamiento de los sistemas de IA generativa comercial, accesibles mediante instrucciones benignas, socava fundamentalmente a los detectores de deepfakes actuales al permitir la creación de imágenes que evaden la detección, preservan la identidad y mejoran la calidad perceptual, revelando una desconexión crítica entre los modelos de amenazas existentes y las capacidades reales de estas herramientas.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Este artículo propone un nuevo método de flujo autorregresivo con restricciones mal condicionadas que descompone la restauración de imágenes UHD en un proceso progresivo de lo grueso a lo fino, utilizando Flow Matching y regularización de estabilidad numérica para lograr una recuperación detallada eficiente y estable en resoluciones de 4K o superiores.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Este trabajo propone un marco de desentrelado semántico guiado visualmente que, mediante una alineación latente cruzada y un módulo de fusión híbrida, supera las limitaciones de los modelos texto-imagen generales para generar imágenes médicas de alta calidad y control fino, mejorando tanto la síntesis como el rendimiento en tareas de clasificación posteriores.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

El artículo presenta STEPH, un nuevo esquema que utiliza mezclas de vectores de tareas dispersas y redes hiperpara transferir eficientemente conocimiento generalizable entre diferentes tipos de cáncer en imágenes de diapositivas completas mediante la fusión de modelos, logrando mejoras significativas en la predicción del pronóstico sin necesidad de entrenamiento conjunto a gran escala.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudio evalúa la sensibilidad de once modelos fundacionales para la segmentación de imágenes médicas de musculo-esqueléticas, revelando que el rendimiento varía significativamente según la estrategia de prompt y la anatomía, y que el uso de prompts humanos reduce el rendimiento en comparación con los prompts ideales, lo que complica la selección del modelo óptimo para entornos clínicos reales.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabajo presenta un marco novedoso de análisis cognitivo de defectos en polímeros reforzados con fibra de carbono (CFRP) mediante termografía infrarroja activa y modelos de visión-linguaje, que elimina la necesidad de conjuntos de datos de entrenamiento específicos mediante el uso de adaptadores ligeros para lograr una detección y localización de defectos subsuperficiales en configuración *zero-shot*.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess