RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

El artículo presenta RedTeamCUA, un marco de pruebas adversarias con un entorno híbrido web-sistema operativo que revela vulnerabilidades críticas en los agentes de uso informático frente a inyecciones de prompts indirectos, demostrando mediante el nuevo benchmark RTC-Bench que incluso los modelos más avanzados actuales presentan riesgos significativos de seguridad que requieren defensas robustas antes de su despliegue masivo.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabajo presenta CityLens, el benchmark más extenso hasta la fecha para evaluar la capacidad de los Grandes Modelos Visuales-Lingüísticos (LVLM) en la predicción de indicadores socioeconómicos urbanos a partir de imágenes satelitales y de calle, abarcando 17 ciudades globales y 6 dominios clave para identificar tanto sus promesas como sus limitaciones actuales.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabajo presenta FAME, un marco de aprendizaje multimodal que pondera las distintas fuentes de datos de registros electrónicos de salud según su contribución a la equidad, optimizando simultáneamente el rendimiento predictivo y la justicia entre subgrupos de pacientes mediante una función de pérdida combinada y el índice de disparidad en la distribución de errores.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL