cs.CR artículos | Gist.Science

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artículo expone por primera vez los riesgos de privacidad en la caché KV de los modelos de lenguaje grandes, demostrando cómo un atacante puede reconstruir entradas sensibles mediante tres vectores de ataque, y propone KV-Cloak, un mecanismo de defensa ligero y reversible que elimina estas vulnerabilidades sin degradar el rendimiento ni la precisión del modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan QinThu, 12 Ma💬 cs.CL

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artículo presenta un marco de olvido selectivo jerárquico de doble estrategia que, mediante actualizaciones de gradiente geométricamente restringidas e intervenciones a nivel de tokens conscientes de conceptos, elimina eficazmente conocimientos médicos específicos de grandes modelos de lenguaje preservando sus competencias fundamentales y garantizando la privacidad con una modificación mínima de parámetros.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing ChenThu, 12 Ma🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudio presenta una arquitectura multi-tenant segura combinada con un mecanismo de "destrucción tras el uso" para entornos de LLM empresariales, logrando aislar instancias y eliminar contextos efímeros para prevenir eficazmente la fuga de datos mediante una alta tasa de éxito en pruebas de defensa contra ataques de filtración y persistencia.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun WangThu, 12 Ma🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artículo presenta un ataque de denegación de servicio económico y sigiloso para agentes de LLM que, mediante la manipulación de llamadas a herramientas bajo el Protocolo de Contexto del Modelo (MCP) y optimizado con Búsqueda de Árbol Monte Carlo, genera cadenas de interacción prolongadas que multiplican drásticamente los costos y el consumo de recursos sin ser detectado por filtros convencionales.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan LamThu, 12 Ma🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

El artículo presenta "hubscan", un escáner de seguridad de código abierto diseñado para detectar y mitigar el envenenamiento por hubness en sistemas de Generación Aumentada por Recuperación (RAG) mediante un análisis estadístico y estructural avanzado de índices vectoriales, logrando una alta tasa de recuperación de ataques adversarios en diversos entornos y bases de datos.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany SaadeThu, 12 Ma🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

El estudio revela que la alineación de seguridad en los modelos de lenguaje grandes genera un "sesgo de rechazo defensivo", negando asistencia a tareas cibernéticas legítimas y críticas cuando contienen palabras sensibles, incluso con autorización explícita, debido a que priorizan la similitud semántica con contenido dañino sobre el análisis de la intención del usuario.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q KnightThu, 12 Ma🤖 cs.AI

Kraken: Higher-order EM Side-Channel Attacks on DNNs in Near and Far Field

Este trabajo presenta "Kraken", el primer ataque de canal lateral electromagnético de alto orden capaz de extraer parámetros de modelos de aprendizaje profundo directamente de las unidades Tensor Core de las GPUs, demostrando la vulnerabilidad de estos sistemas tanto en campo cercano como en campo lejano a través de obstáculos.

Peter Horvath, Ilia Shumailov, Lukasz Chmielewski, Lejla Batina, Yuval YaromThu, 12 Ma💻 cs

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudio evalúa la robustez y seguridad pedagógica de modelos de lenguaje offline en la educación del idioma turco, demostrando mediante una suite de anomalías que los modelos de 8B a 14B parámetros ofrecen el mejor equilibrio entre costo y seguridad, ya que la resistencia a anomalías no depende únicamente de la escala del modelo.

Edibe Yilmaz, Kahraman KostasThu, 12 Ma💬 cs.CL

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Este artículo evalúa la capacidad de generalización de agentes de ciberataque autónomos ante cambios en la asignación de direcciones IP, concluyendo que aunque los agentes impulsados por LLM logran el mejor rendimiento en escenarios no vistos, lo hacen a costa de un mayor consumo computacional, menor transparencia y la aparición de fallos prácticos como bucles de acciones inválidas.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian GarciaThu, 12 Ma💻 cs

Targeted Bit-Flip Attacks on LLM-Based Agents

Este trabajo presenta Flip-Agent, el primer marco de ataque de inversión de bits dirigido diseñado para explotar vulnerabilidades en agentes basados en LLM manipulando tanto sus respuestas finales como sus invocaciones de herramientas.

Jialai Wang, Ya Wen, Zhongmou Liu, Yuxiao Wu, Bingyi He, Zongpeng Li, Ee-Chien ChangThu, 12 Ma🤖 cs.AI

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

El artículo propone FlowSem-MAE, un paradigma de preentrenamiento tabular nativo de protocolos que supera las limitaciones de los enfoques basados en secuencias al preservar la semántica de los campos definidos por el protocolo mediante unidades semánticas de flujo (FSU), logrando una clasificación superior de tráfico cifrado con la mitad de datos etiquetados.

Sizhe Huang, Shujie YangThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

El artículo presenta OAuthHub, un marco de desarrollo que utiliza dispositivos personales como intermediarios para mitigar el acceso excesivo a datos en OAuth mediante un modelo de permisos centralizado y patrones de acceso discretos, logrando reducir significativamente el tiempo de codificación y la complejidad del código en comparación con las APIs tradicionales.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artículo presenta los AIBOMs (Facturas de Materiales de Inteligencia Artificial), una extensión de las SBOMs tradicionales mediante una arquitectura multiagente autónoma que captura el comportamiento en tiempo real y la deriva del entorno para generar afirmaciones de explotabilidad contextualizadas y reproducibles, mejorando así la seguridad de la cadena de suministro de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

El artículo presenta NabaOS, un marco de verificación ligero inspirado en la epistemología india que utiliza recibos de ejecución de herramientas firmados criptográficamente para detectar alucinaciones en agentes de IA en tiempo real, ofreciendo un equilibrio superior entre cobertura, latencia y costo en comparación con los métodos de prueba de conocimiento cero.

Abhinaba BasuThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artículo presenta FLA³, una plataforma de aprendizaje federado que integra controles de autenticación, autorización y contabilidad para habilitar la investigación clínica global segura y cumplir con las normativas de privacidad sin compartir datos.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

El artículo presenta ADVERSA, un marco de red-teaming automatizado que evalúa la degradación progresiva de las defensas de seguridad en modelos de lenguaje grandes mediante interacciones multi-turno, revelando que los jailbreaks exitosos tienden a ocurrir en las primeras rondas y destacando la importancia de medir la fiabilidad de los jueces y los sesgos de los atacantes.

Harry Owiredu-AshleyThu, 12 Ma🤖 cs.AI

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Este estudio analiza el rendimiento de los modelos de lenguaje grandes (LLM) en la generación de parches de seguridad para vulnerabilidades Java, revelando que, aunque preservan la funcionalidad, sufre un alto índice de fracaso debido a malentendidos semánticos que comprometen la seguridad, lo que subraya la necesidad de validación rigurosa antes de su despliegue.

Amir Al-MaamariThu, 12 Ma🤖 cs.AI

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

El artículo presenta TASER, un marco de defensa descentralizado para enjambres de UAVs que mitiga ataques de puerta trasera sofisticados mediante el análisis y refinamiento de la concentración espectral de los gradientes, logrando así suprimir tareas maliciosas sin depender de la detección de valores atípicos.

Sizhe Huang, Shujie YangThu, 12 Ma🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

El artículo presenta "Amnesia", un ataque adversarial ligero que manipula las activaciones internas de los modelos de lenguaje grandes (LLM) de peso abierto para eludir sus mecanismos de seguridad y generar contenido dañino sin necesidad de entrenamiento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh PatraThu, 12 Ma🤖 cs.AI

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Este artículo propone un ataque de perturbación multi-flujo que explota las vulnerabilidades de los modelos de lenguaje con modo de pensamiento al intercalar múltiples tareas simultáneas, logrando altas tasas de éxito en evadir mecanismos de seguridad y provocar el colapso del proceso de razonamiento en modelos avanzados.

Fan YangThu, 12 Ma🤖 cs.AI

← Anterior Siguiente →