CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Este trabajo presenta CGL, un marco de aprendizaje continuo para agentes de interfaces gráficas que combina ajuste fino supervisado y aprendizaje por refuerzo mediante un mecanismo de ajuste dinámico y una estrategia de cirugía de gradientes para equilibrar la adaptación a nuevas tareas con la retención de conocimientos previos, validado mediante el nuevo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Este artículo presenta LDP-Slicing, un marco ligero y sin entrenamiento que preserva la privacidad diferencial local en imágenes mediante la descomposición de píxeles en planos de bits y una asignación optimizada del presupuesto de privacidad, logrando así una utilidad superior para tareas de aprendizaje automático en comparación con los métodos existentes.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artículo revela que el desprendimiento basado en poda en modelos de difusión es vulnerable a la revivificación de conceptos eliminados mediante un ataque de canal lateral que explota las ubicaciones de los pesos podados, demostrando que este método no es inherentemente seguro y proponiendo estrategias de defensa para ocultar dichas ubicaciones.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artículo presenta un marco de consistencia de márgenes con puntuación de fidelidad de perturbación para la subtipificación robusta de adenocarcinoma pulmonar invasivo en imágenes de diapositivas completas, logrando una alta precisión y generalización en múltiples arquitecturas de redes neuronales y conjuntos de datos.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

El marco PaLMR mejora la fiabilidad del razonamiento visual en modelos multimodales alineando tanto el resultado como el proceso de razonamiento mediante una capa de datos perceptiva y un esquema de recompensa jerárquico, logrando así reducir las alucinaciones y alcanzar resultados de vanguardia en benchmarks especializados.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

El artículo presenta ASMIL, un marco unificado de aprendizaje múltiple instanciado estabilizado por atención que corrige la inestabilidad dinámica, el sobreajuste y la concentración excesiva de la atención en el diagnóstico de imágenes de diapositivas completas, logrando mejoras significativas en el rendimiento frente a los métodos actuales.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artículo presenta un sistema de inferencia optimizado para modelos de generación de video basados en DiT que, mediante el uso de codificación posicional 3D secuencial-paralela con un índice de tiempo global y técnicas de fusión de operadores, logra reducir significativamente la latencia y el consumo de memoria para habilitar la generación de videos en tiempo real sin comprometer la calidad.

Chao Yuan, Pan Li2026-03-10💻 cs