AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

El artículo presenta AttriGuard, un nuevo mecanismo de defensa en tiempo real para agentes LLM que utiliza atribución causal y pruebas contrafactuales para distinguir y bloquear inyecciones de prompts indirectas en las invocaciones de herramientas, logrando una tasa de éxito de ataque del 0% con una pérdida de utilidad mínima.

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan QinThu, 12 Ma💻 cs

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

Este estudio propone un enfoque de aprendizaje federado incremental basado en LSTM para mejorar la detección de intrusiones en redes IoT bajo un panorama de amenazas en evolución, demostrando que las estrategias de aprendizaje acumulativo y representativo ofrecen el mejor rendimiento estable frente al cambio de concepto, mientras que los métodos basados en retención equilibran eficazmente la precisión y la latencia.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh KalakotiThu, 12 Ma💻 cs

Layered Performance Analysis of TLS 1.3 Handshakes: Classical, Hybrid, and Pure Post-Quantum Key Exchange

Este estudio presenta un análisis de laboratorio que evalúa el impacto de los algoritmos de criptografía post-cuántica (híbridos y puros) frente a los tradicionales en el rendimiento de las transacciones HTTP sobre TLS 1.3, examinando sus efectos específicos en cada capa de la pila de protocolos mediante pruebas de carga de hasta 100 transacciones por segundo.

David Gómez-Cambronero, Daniel Munteanu, Ana Isabel González-TablasThu, 12 Ma💻 cs

Separating Oblivious and Adaptive Differential Privacy under Continual Observation

Este trabajo resuelve una pregunta abierta demostrando la primera separación explícita entre la privacidad diferencial en el modelo de observación continua para los casos no adaptativo y adaptativo, mostrando que un algoritmo no adaptativo puede mantener la precisión durante un número exponencial de pasos temporales mientras que cualquier algoritmo adaptativo falla tras unos pocos pasos.

Mark Bun, Marco Gaboardi, Connor WagamanThu, 12 Ma💻 cs

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

El artículo presenta SPARK, un marco de ataque que elude las medidas de seguridad de los modelos de texto a video mediante prompts aparentemente benignos que combinan anclajes escénicos neutrales, desencadenantes auditivos latentes y moduladores estilísticos para inducir la generación de contenido inseguro sin ser detectados.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong LiuMon, 09 Ma💻 cs

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Este trabajo presenta el primer estudio sistemático del riesgo de privacidad en la orquestación de herramientas de agentes impulsados por LLMs, definiendo el marco TOP-R, creando el benchmark TOP-Bench para evaluar la fuga de información sensible a través de la inferencia compuesta, e identificando causas raíz y estrategias de mitigación que mejoran significativamente la seguridad sin comprometer la utilidad.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin HuMon, 09 Ma🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

El artículo presenta WBC, un nuevo método de ataque de inferencia de membresía para modelos de lenguaje grandes ajustados que supera a las técnicas existentes al analizar señales de memorización localizadas mediante una comparación basada en ventanas deslizantes, en lugar de depender de promedios globales.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui LiMon, 09 Ma🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artículo presenta una fórmula de puntuación "pico + acumulación" que, sin utilizar un LLM, detecta eficazmente inyecciones de prompts de múltiples turnos al combinar el riesgo máximo por turno, la persistencia y la diversidad de categorías, logrando un 90,8% de recuperación con una tasa de falsos positivos del 1,20% en un conjunto de datos de más de 10.000 conversaciones.

J Alex CorllMon, 09 Ma🤖 cs.AI

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

El artículo propone "Traversal-as-Policy", un marco que convierte los registros de ejecución de agentes LLM en árboles de comportamiento con puertas (GBT) ejecutables y verificables, logrando mejorar drásticamente el éxito en tareas complejas, eliminar violaciones de seguridad y reducir costos computacionales al reemplazar la generación libre por una política de control basada en la exploración de macros validadas.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

Privacy-Preserving Collaborative Medical Image Segmentation Using Latent Transform Networks

Este trabajo presenta el marco PPCMI-SF, una solución de colaboración privada para la segmentación de imágenes médicas que utiliza transformaciones latentes cifradas y mapeo en el servidor para lograr una alta precisión y resistencia a ataques de inferencia sin compartir datos sensibles entre instituciones.

Saheed Ademola Bello, Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Shujaat KhanMon, 09 Ma💻 cs