KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang LiangFri, 13 Ma🤖 cs.LG

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Este artículo presenta un análisis exhaustivo de las amenazas de seguridad en el agente autónomo OpenClaw mediante un marco de cinco capas que abarca todo su ciclo de vida, identificando vulnerabilidades críticas como la inyección de prompts indirecta y la contaminación de la cadena de suministro de habilidades, mientras propone estrategias de defensa holísticas para mitigar estos riesgos sistémicos.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi LiFri, 13 Ma🤖 cs.AI

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

El artículo identifica y cuantifica la "Dilema del Ejecutor de Confianza", una vulnerabilidad estructural en los agentes LLM de alto privilegio que les lleva a ejecutar instrucciones maliciosas ocultas en documentación técnica, demostrando mediante el benchmark ReadSecBench que las defensas actuales son ineficaces para prevenir la exfiltración de datos sin generar falsos positivos inaceptables.

Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip SperlFri, 13 Ma🤖 cs.AI

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Este estudio revela que los modelos de lenguaje actuales, incluso los más avanzados, a menudo fallan en mantener principios éticos al procesar contenido dañino proporcionado por el usuario dentro de tareas aparentemente benignas, lo que destaca una vulnerabilidad de seguridad de nivel de contenido que requiere medidas de mitigación.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang ZhangFri, 13 Ma🤖 cs.AI

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Este trabajo introduce los Ataques de Puerta Trasera Retardados (DBA), una nueva clase de amenazas que desacoplan temporalmente la activación maliciosa del disparador mediante el módulo DND, demostrando que es posible utilizar palabras cotidianas como triggers y mantener la puerta trasera latente hasta alcanzar un umbral configurado, lo que revela una superficie de ataque temporal previamente inexplorada en modelos preentrenados.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit NiyatoFri, 13 Ma🤖 cs.AI

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Este trabajo presenta HomeSafe-Bench, un nuevo benchmark para evaluar la detección de acciones inseguras en entornos domésticos mediante modelos de visión-lingüística, junto con HD-Guard, una arquitectura de doble cerebro jerárquico que equilibra eficiencia y precisión en la supervisión de seguridad en tiempo real para agentes robóticos.

Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun XuFri, 13 Ma🤖 cs.AI

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Este trabajo demuestra cómo la combinación de vulnerabilidades tradicionales de software y hardware con debilidades algorítmicas en sistemas de IA compuestos puede amplificar las amenazas adversarias, revelando la necesidad de abordar estos riesgos sistémicos mediante la sistematización de primitivas de ataque para mejorar la seguridad y las estrategias de defensa.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit TiwariFri, 13 Ma🤖 cs.AI

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry MaFri, 13 Ma🤖 cs.LG

PrometheusFree: Concurrent Detection of Laser Fault Injection Attacks in Optical Neural Networks

Este artículo presenta PrometheusFree, un marco para aceleradores de IA en fotónica de silicio que detecta concurrentemente ataques de inyección de fallos láser mediante una técnica novedosa de perturbación de división de longitud de onda (WDP), logrando una reducción del 95,3% en la tasa de éxito de los ataques y una precisión de detección superior al 96%.

Kota Nishida, Yoshihiro Midoh, Noriyuki Miura + 3 more2026-03-12🔬 physics.optics

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

El artículo presenta AUTOTEE, un enfoque basado en modelos de lenguaje grande (LLM) que automatiza la identificación, transformación y portabilidad de funciones sensibles hacia Entornos de Ejecución de Confianza (TEE) con alta precisión y tasas de éxito en Java y Python, reduciendo así la necesidad de intervención manual y conocimientos especializados.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Accurate BGV Parameters Selection: Accounting for Secret and Public Key Dependencies in Average-Case Analysis

Este trabajo propone un enfoque promedio novedoso para la selección precisa de los parámetros del esquema de cifrado homomórfico BGV, el cual modela con exactitud el crecimiento del ruido al considerar las dependencias entre los errores de las claves, mejorando así tanto la eficiencia como la seguridad del sistema.

Beatrice Biasioli, Chiara Marcolla, Nadir Murru, Matilda Urani2026-03-06🔒 cs.CR