Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Este trabajo presenta AoD-IP, un marco innovador para modelos de visión y lenguaje que garantiza la protección de la propiedad intelectual mediante una autorización dinámica bajo demanda y una evaluación consciente de la legalidad, superando las limitaciones de los métodos estáticos existentes al permitir una adaptación flexible a entornos cambiantes.

Lianyu Wang, Meng Wang, Huazhu Fu + 1 more2026-03-06🤖 cs.AI

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

El artículo presenta AgentSCOPE, un marco y benchmark que evalúa la privacidad contextual en cada etapa de los flujos de trabajo de agentes, revelando que la mayoría de las violaciones ocurren en las respuestas de las herramientas y que las evaluaciones centradas únicamente en la salida subestiman significativamente los riesgos de privacidad.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy2026-03-06🔒 cs.CR

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este estudio demuestra que las intervenciones de alineación en modelos de lenguaje grandes pueden provocar un "efecto rebote" dependiente del idioma, donde la seguridad superficial en inglés se invierte en patologías colectivas y disociación en otros idiomas como el japonés, revelando que la validación de seguridad en inglés no garantiza resultados seguros en otros contextos lingüísticos y culturales.

Hiroki Fukui2026-03-06🤖 cs.AI

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

El artículo presenta VPWEM, una política visuomotor no markoviana que integra memorias de trabajo y episódica mediante un compresor contextual basado en Transformers para resolver tareas de manipulación que requieren memoria a largo plazo con una eficiencia computacional constante, superando significativamente a los modelos de estado del arte en benchmarks de manipulación móvil y de memoria intensiva.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

El artículo presenta EVMbench, una evaluación que demuestra que los agentes de IA avanzados son capaces de detectar, parchear y explotar vulnerabilidades en contratos inteligentes de Ethereum en entornos de ejecución reales, utilizando un conjunto de datos curado y calificación programática para medir estos riesgos y capacidades.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

El artículo presenta BandPO, un nuevo método de optimización para el aprendizaje por refuerzo en modelos de lenguaje grande que sustituye el recorte fijo tradicional por límites dinámicos sensibles a la probabilidad, resolviendo así el cuello de botella en la exploración y mitigando el colapso de entropía sin comprometer la estabilidad.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Knowledge-informed Bidding with Dual-process Control for Online Advertising

El artículo presenta KBD, un método innovador para la optimización de pujas en publicidad en línea que integra el conocimiento experto humano y un control de doble proceso (combinando reglas PID rápidas con un Transformador de Decisiones) para superar las limitaciones de los modelos de aprendizaje automático tradicionales en escenarios con datos escasos y dependencias a largo plazo.

Huixiang Luo, Longyu Gao, Yaqi Liu + 3 more2026-03-06🤖 cs.AI

Retrieval-Augmented Generation with Covariate Time Series

El artículo presenta RAG4CTS, un marco de generación aumentada por recuperación sin entrenamiento diseñado específicamente para series temporales con covariables en escenarios de alta escasez de datos, el cual supera a los métodos existentes en la predicción de fallos de válvulas de regulación de presión mediante una base de conocimientos nativa y un mecanismo de recuperación bi-ponderado, logrando una implementación exitosa en China Southern Airlines con cero falsas alarmas.

Kenny Ye Liang, Zhongyi Pei, Huan Zhang + 3 more2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

El artículo presenta MPCEval, una suite de evaluación y benchmarking diseñada para medir la generación de conversaciones multipersona mediante métricas cuantitativas y sin referencia que descomponen la calidad en modelado del hablante, calidad del contenido y consistencia entre ambos, revelando cómo los objetivos de evaluación influyen en la percepción de las capacidades de los modelos de IA generativa.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

El artículo presenta MOUE, una generalización de los modelos de expertos mezclados (MoE) que introduce la "ancho virtual" al reutilizar expertos universales entre capas mediante una topología rotacional escalonada y mecanismos de balanceo de carga específicos, logrando mejoras significativas en el rendimiento y la escalabilidad frente a las arquitecturas MoE convencionales.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI