HiconAgent: History Context-aware Policy Optimization for GUI Agents

El artículo presenta HiconAgent, un agente de interfaz gráfica que utiliza la Optimización de Políticas Consciente del Contexto Histórico (HCPO) para mejorar la eficiencia y precisión en tareas de navegación secuencial mediante el muestreo dinámico de contextos y una compresión de historial guiada por anclajes, logrando un rendimiento superior al de modelos más grandes con una reducción significativa en costos computacionales.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

El paper presenta MAViD, un marco multimodal innovador que utiliza una arquitectura Conductor-Creador con modelos autoregresivos y de difusión para superar las limitaciones de los sistemas existentes y generar diálogos interactivos de larga duración, coherentes y sincronizados en audio y video.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artículo identifica el fenómeno de "horizonte de información" en los Modelos de Lenguaje Grandes Visuales, donde los tokens visuales pierden su relevancia en capas profundas, demostrando que la poda aleatoria en estas etapas es tan efectiva como los métodos existentes y permite lograr un equilibrio óptimo entre eficiencia y rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabajo aborda los desafíos de la extracción de redes viales en entornos no urbanos mediante el lanzamiento del conjunto de datos global WildRoad y la propuesta de MaGRoad, un marco de razonamiento centrado en el camino que supera las limitaciones de los métodos existentes al lograr un rendimiento superior y una inferencia más rápida.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Este trabajo propone un marco de aumento de datos generativo de dos pasos que combina deformación de máscaras basada en reglas y traducción de imágenes mediante GANs para generar muestras de rostros con mascarilla, logrando mejoras consistentes con una fracción mínima de los datos de entrenamiento utilizados por métodos anteriores, a pesar de haber sido desarrollado bajo severas restricciones de recursos y tiempo.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

El artículo presenta ReMeDI-SAM3, una extensión sin entrenamiento de SAM3 que mejora la segmentación de instrumentos quirúrgicos mediante filtrado de memoria, interpolación y reidentificación para superar los desafíos de oclusión y movimiento, logrando mejoras significativas en métricas de precisión en comparación con enfoques anteriores.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudio demuestra que, aunque la percepción subjetiva de la vegetación urbana no siempre coincide con las mediciones objetivas, las diferencias se explican principalmente por el lugar de residencia de las personas y no por su demografía o personalidad, lo que sugiere que factores culturales y experienciales moldean significativamente cómo se observa el verde en las ciudades.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

El artículo presenta "Re-Depth Anything", un marco de auto-supervisión en tiempo de prueba que mejora la estimación de profundidad monoculosa al fusionar modelos fundacionales con priores de modelos de difusión 2D a gran escala mediante un refinamiento basado en re-iluminación y muestreo de distorsión de puntuación (SDS), logrando resultados de vanguardia sin necesidad de etiquetas.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

El artículo presenta VOIC, un marco innovador que mejora la Completación Semántica de Escenas 3D a partir de una sola imagen mediante una estrategia de extracción de etiquetas de regiones visibles y una red de doble decodificador que desacopla y optimiza por separado la percepción de zonas visibles y el razonamiento de zonas ocluidas, logrando así un rendimiento superior en benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Este trabajo presenta un marco de aprendizaje profundo eficiente y preciso para la superresolución de imágenes de resonancia magnética (MRI) mediante un modelo híbrido de escaneo selectivo (MHSSM) y MLP de canales, que logra un rendimiento superior al estado del arte con una reducción drástica de parámetros y costos computacionales, facilitando su integración clínica.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

El artículo presenta DrivingGen, el primer benchmark integral para modelos de mundo generativos en conducción autónoma, que aborda las limitaciones actuales mediante un conjunto de datos diverso y nuevas métricas para evaluar de forma rigurosa la realismo visual, la plausibilidad de las trayectorias, la coherencia temporal y el control en la simulación de escenarios de conducción.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabajo presenta un marco ligero y explicable de visión-linguaje basado en dos etapas que combina un codificador Swin Transformer preentrenado multitarea con decodificadores de lenguaje para lograr un rendimiento casi perfecto en la identificación de enfermedades de cultivos y la generación de respuestas explicativas a preguntas visuales.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

El artículo presenta R^4, un marco de agentes auto-mejorables que descompone el análisis de imágenes médicas en cuatro etapas coordinadas (enrutamiento, recuperación, reflexión y reparación) para generar informes clínicos y localizaciones más precisos y seguros sin necesidad de ajuste fino basado en gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudio audita y realiza una etnografía del predictor LAION-Aesthetics, revelando que su enfoque algorítmico de la calidad estética refuerza sesgos occidentales, masculinos e imperiales al filtrar desproporcionadamente imágenes que representan a mujeres y personas LGBTQ+, lo que subraya la necesidad de transitar hacia evaluaciones más plurales en lugar de medidas prescriptivas de "estética".

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

El artículo presenta S2DiT, un modelo de Transformador de Difusión en sándwich optimizado para generar video de alta fidelidad en tiempo real en dispositivos móviles mediante mecanismos de atención eficientes y un marco de destilación, logrando más de 10 FPS en un iPhone con calidad comparable a los modelos de servidor más avanzados.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

El artículo presenta ReViP, un marco de modelos de visión-idioma-acción que mitiga las "completaciones falsas" mediante un reequilibrio entre visión y propiocepción, utilizando señales visuales conscientes del progreso para mejorar la robustez y el rendimiento en tareas de manipulación robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Este artículo presenta ScenePilot-Bench, un nuevo benchmark a gran escala basado en el dataset ScenePilot-4K diseñado para evaluar y analizar las capacidades de los modelos de visión-linguaje en la comprensión, percepción espacial y planificación de movimiento para la conducción autónoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Este trabajo presenta QSTar, un nuevo método de interacción espacial-temporal-frecuencial guiado por consultas que integra información textual desde etapas tempranas y explota las características de frecuencia del audio para superar las limitaciones de los enfoques existentes en la respuesta a preguntas audiovisuales (AVQA), logrando mejoras significativas en diversos benchmarks.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

El artículo presenta MeanCache, un marco de caché sin entrenamiento que acelera la inferencia de Flow Matching al utilizar velocidades promedio derivadas de productos Jacobiano-vector en lugar de velocidades instantáneas, logrando mejoras significativas en la velocidad y la calidad de generación en modelos como FLUX.1, Qwen-Image y HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG