cs.CR artigos | Gist.Science

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artigo revela que o cache KV em modelos de linguagem grandes (LLMs) expõe dados sensíveis a ataques de reconstrução e propõe o KV-Cloak, um mecanismo de defesa leve e reversível que protege a privacidade sem comprometer a precisão ou o desempenho do modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan QinThu, 12 Ma💬 cs.CL

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artigo apresenta um framework hierárquico de dupla estratégia para o esquecimento seletivo em modelos de linguagem grandes aplicados à saúde, que remove conhecimento especializado sensível preservando competências médicas fundamentais com alta eficiência e garantias de privacidade.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing ChenThu, 12 Ma🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudo apresenta uma Arquitetura Multi-Tenant Segura (SMTA) combinada com um mecanismo inovador de "Queimar-Após-Uso" (BAU) para ambientes de LLM corporativos, demonstrando através de extensos testes que essa abordagem previne eficazmente vazamentos de dados ao garantir isolamento estrito e a destruição automática de contextos de conversação após o uso.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun WangThu, 12 Ma🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artigo propõe um ataque de negação de serviço econômico e furtivo que explora o protocolo MCP para induzir agentes de LLM a cadeias de chamadas de ferramentas excessivamente longas e custosas, aumentando drasticamente o consumo de recursos e custos enquanto evade detecções convencionais.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan LamThu, 12 Ma🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

O artigo apresenta o Hubscan, um scanner de segurança de código aberto que utiliza uma arquitetura multi-detector para identificar e mitigar ataques de envenenamento por hubness em sistemas de Geração Aumentada por Recuperação (RAG), demonstrando alta eficácia na detecção de conteúdo adversarial em diversos bancos de dados vetoriais e benchmarks.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany SaadeThu, 12 Ma🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

O artigo revela que a alinhamento de segurança em modelos de linguagem de grande escala cria um "viés de recusa defensiva", fazendo com que eles neguem injustificadamente assistência a tarefas legítimas de cibersegurança quando o conteúdo contém palavras-chave sensíveis, um problema agravado por autorizações explícitas e crítico para agentes autônomos de defesa.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q KnightThu, 12 Ma🤖 cs.AI

Kraken: Higher-order EM Side-Channel Attacks on DNNs in Near and Far Field

Este trabalho apresenta o "Kraken", um ataque de canal lateral de alta ordem que, pela primeira vez, extrai parâmetros de redes neurais profundas diretamente das unidades Tensor Core de GPUs utilizando análise de potência de campo próximo e demonstra vazamento de informações de grandes modelos de linguagem a até 100 cm de distância em campo distante.

Peter Horvath, Ilia Shumailov, Lukasz Chmielewski, Lejla Batina, Yuval YaromThu, 12 Ma💻 cs

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman KostasThu, 12 Ma💬 cs.CL

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Este artigo avalia os mecanismos de generalização de agentes cibernéticos autônomos em cenários de reatribuição de IPs, descobrindo que, embora agentes baseados em LLMs superem outros métodos em tarefas não vistas, eles o fazem às custas de maior consumo computacional, menor transparência e falhas práticas como loops de ação inválida.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian GarciaThu, 12 Ma💻 cs

Targeted Bit-Flip Attacks on LLM-Based Agents

O artigo apresenta o Flip-Agent, o primeiro framework de ataque de inversão de bits direcionado capaz de manipular tanto as respostas finais quanto as invocações de ferramentas em agentes baseados em modelos de linguagem, revelando uma vulnerabilidade crítica nesses sistemas.

Jialai Wang, Ya Wen, Zhongmou Liu, Yuxiao Wu, Bingyi He, Zongpeng Li, Ee-Chien ChangThu, 12 Ma🤖 cs.AI

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

O artigo propõe o FlowSem-MAE, um paradigma de pré-treinamento tabular nativo de protocolos que, ao tratar as unidades semânticas de fluxo como prioridades arquitetônicas e corrigir vieses indutivos da modelagem baseada em bytes, supera significativamente os métodos atuais de classificação de tráfego criptografado com apenas metade dos dados rotulados.

Sizhe Huang, Shujie YangThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

O artigo apresenta o OAuthHub, um framework de desenvolvimento que utiliza dispositivos pessoais como intermediários para mitigar o acesso excessivo a dados em aplicações OAuth, permitindo um controle mais granular e demonstrando, através de avaliações, que reduz significativamente o tempo de codificação e a complexidade do código em comparação com as APIs OAuth convencionais.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artigo apresenta os AIBOMs (Artificial Intelligence Bills of Materials), uma evolução dos SBOMs baseada em uma arquitetura multiagente autônoma que estende os esquemas CycloneDX e SPDX para capturar comportamento em tempo real, monitorar desvios de ambiente e gerar afirmações estruturadas de explorabilidade, garantindo maior reprodutibilidade e precisão na avaliação de vulnerabilidades da cadeia de suprimentos de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

O artigo apresenta o NabaOS, um framework de verificação leve inspirado na epistemologia indiana Nyaya Shastra que utiliza recibos de execução de ferramentas assinados por HMAC para detectar alucinações em agentes de IA em tempo real com baixa latência, oferecendo uma alternativa prática e eficiente aos pesados e lentos protocolos de prova de conhecimento zero.

Abhinaba BasuThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Este artigo apresenta o FLA³, uma plataforma de aprendizado federado que integra mecanismos de autenticação, autorização e auditoria baseados em políticas para permitir pesquisas clínicas colaborativas seguras e conformes com regulamentações entre múltiplas instituições internacionais, demonstrando viabilidade operacional e utilidade clínica sem comprometer a privacidade dos dados.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

O artigo apresenta o ADVERSA, um framework automatizado de red-teaming que avalia a degradação contínua das barreiras de segurança e a confiabilidade dos juízes em modelos de linguagem durante interações adversariais de múltiplas rodadas, revelando que as violações de segurança tendem a ocorrer precocemente e destacando desafios como a deriva do atacante e a inconsistência de julgamento.

Harry Owiredu-AshleyThu, 12 Ma🤖 cs.AI

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Este estudo analisa 319 correções geradas por LLMs para vulnerabilidades de segurança em Java, revelando que a maioria falha devido a mal-entendidos semânticos e propondo uma nova métrica (SRS) que evidencia a dificuldade dos modelos em corrigir falhas de segurança sem comprometer a funcionalidade.

Amir Al-MaamariThu, 12 Ma🤖 cs.AI

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

O artigo propõe o TASER, um framework de defesa descentralizado para enxames de UAVs que utiliza a concentração espectral para suprimir ataques de backdoor furtivos, preservando coeficientes relevantes para a tarefa principal e descartando os demais, superando assim as limitações das defesas baseadas em detecção de outliers.

Sizhe Huang, Shujie YangThu, 12 Ma🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

O artigo propõe o "Amnesia", um ataque adversarial leve que manipula os estados internos de modelos de linguagem grandes (LLMs) para contornar mecanismos de segurança existentes e induzir a geração de conteúdo prejudicial sem a necessidade de ajuste fino ou treinamento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh PatraThu, 12 Ma🤖 cs.AI

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Este artigo propõe um ataque de perturbação de múltiplos fluxos que explora vulnerabilidades no modo de raciocínio de modelos de linguagem grandes ao intercalar tarefas concorrentes, resultando em altas taxas de sucesso em jailbreaks e na colapso ou repetição dos processos de pensamento.

Fan YangThu, 12 Ma🤖 cs.AI

← Anterior Próximo →