Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Este artículo presenta "Chain-of-Lure", un marco de ataque universal que utiliza narrativas sintéticas no restringidas y optimización por un modelo LLM auxiliar para eludir las restricciones de seguridad de otros modelos de lenguaje mediante la transferencia de misiones y preguntas engañosas progresivas, demostrando su alta eficacia en entornos de caja negra y proponiendo estrategias de defensa.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Este trabajo presenta la Ajuste Fino Consciente de lo Negativo (NFT), un enfoque de aprendizaje supervisado que permite a los modelos de lenguaje mejorar autónomamente en razonamiento matemático mediante el aprovechamiento de sus propios errores, logrando un rendimiento comparable o superior a los métodos de aprendizaje por refuerzo y demostrando teóricamente la equivalencia entre ambos paradigmas en entornos de entrenamiento estrictamente en política.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

El artículo presenta RedTeamCUA, un marco de pruebas adversarias con un entorno híbrido web-sistema operativo que revela vulnerabilidades críticas en los agentes de uso informático frente a inyecciones de prompts indirectos, demostrando mediante el nuevo benchmark RTC-Bench que incluso los modelos más avanzados actuales presentan riesgos significativos de seguridad que requieren defensas robustas antes de su despliegue masivo.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabajo presenta CityLens, el benchmark más extenso hasta la fecha para evaluar la capacidad de los Grandes Modelos Visuales-Lingüísticos (LVLM) en la predicción de indicadores socioeconómicos urbanos a partir de imágenes satelitales y de calle, abarcando 17 ciudades globales y 6 dominios clave para identificar tanto sus promesas como sus limitaciones actuales.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabajo presenta FAME, un marco de aprendizaje multimodal que pondera las distintas fuentes de datos de registros electrónicos de salud según su contribución a la equidad, optimizando simultáneamente el rendimiento predictivo y la justicia entre subgrupos de pacientes mediante una función de pérdida combinada y el índice de disparidad en la distribución de errores.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL