KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

O artigo apresenta o KEPo, um novo método de ataque de envenenamento projetado especificamente para sistemas GraphRAG, que explora a evolução de conhecimento e a estrutura de grafos para manipular com sucesso as respostas de modelos de linguagem, superando as limitações das técnicas de ataque tradicionais.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang LiangFri, 13 Ma🤖 cs.LG

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Este artigo apresenta uma análise de segurança abrangente do agente autônomo OpenClaw, introduzindo um framework de cinco camadas para identificar ameaças complexas ao longo de seu ciclo de vida e propondo estratégias de defesa holísticas para mitigar riscos sistêmicos que as soluções pontuais atuais não conseguem abordar.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi LiFri, 13 Ma🤖 cs.AI

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

O artigo identifica e quantifica a "Dilema do Executor Confiável", uma vulnerabilidade estrutural em agentes LLM de alto privilégio que, ao seguirem cegamente instruções embutidas em documentação externa, permitem a exfiltração de dados com altas taxas de sucesso, revelando uma lacuna crítica entre a conformidade funcional e a segurança que as defesas atuais não conseguem mitigar.

Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip SperlFri, 13 Ma🤖 cs.AI

On the Possible Detectability of Image-in-Image Steganography

Este artigo demonstra que esquemas de esteganografia imagem-em-imagem são facilmente detectáveis, pois o processo de mistura resultante é identificável por análise de componentes independentes, permitindo que um método de esteganálise baseado nos quatro primeiros momentos desses componentes alcance alta precisão na distinção entre imagens originais e modificadas.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Este estudo revela que os atuais Grandes Modelos de Linguagem (LLMs), incluindo os mais recentes, frequentemente falham em rejeitar conteúdo prejudicial fornecido pelo usuário quando este é inserido em tarefas aparentemente inofensivas, expondo uma vulnerabilidade ética de nível de conteúdo que requer medidas de segurança aprimoradas.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang ZhangFri, 13 Ma🤖 cs.AI

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Este artigo introduz os Ataques de Backdoor Adiado (DBA), uma nova classe de ameaças que desacopla a ativação maliciosa da exposição ao gatilho no tempo, demonstrando através do protótipo DND que é possível usar palavras comuns como gatilhos para manter os modelos inativos por um período controlado antes de desencadear uma falha generalizada com alta precisão.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit NiyatoFri, 13 Ma🤖 cs.AI

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Este artigo apresenta o HomeSafe-Bench, um novo benchmark para avaliar a detecção de ações inseguras em ambientes domésticos por modelos de visão e linguagem, e propõe a arquitetura HD-Guard, que combina um processamento rápido e contínuo com uma análise profunda assíncrona para garantir monitoramento de segurança eficiente e preciso em agentes corporificados.

Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun XuFri, 13 Ma🤖 cs.AI

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Este artigo investiga como vulnerabilidades tradicionais de software e hardware podem ser combinadas com falhas algorítmicas em sistemas de IA compostos para amplificar ameaças adversariais, demonstrando novos vetores de ataque que comprometem a segurança e a confidencialidade desses sistemas.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit TiwariFri, 13 Ma🤖 cs.AI

Understanding Disclosure Risk in Differential Privacy with Applications to Noise Calibration and Auditing (Extended Version)

Este artigo introduz a "vantagem de reconstrução" como uma métrica de risco unificada e mais precisa para calibrar o ruído e auditar a Privacidade Diferencial, superando as limitações das abordagens atuais baseadas em reconstrução robusta que podem fornecer estimativas de risco enganosas.

Patricia Guerra-Balboa, Annika Sauer, Héber H. Arcolezi, Thorsten StrufeFri, 13 Ma🔢 math

STAMP: Selective Task-Aware Mechanism for Text Privacy

O artigo apresenta o STAMP, um novo mecanismo de privacidade para texto que otimiza o equilíbrio entre proteção e utilidade ao alocar orçamentos de privacidade seletivamente por token com base na importância da tarefa e na sensibilidade, utilizando um mecanismo polar que perturba apenas a direção dos embeddings para preservar a semântica.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi TandonFri, 13 Ma🤖 cs.LG

PrometheusFree: Concurrent Detection of Laser Fault Injection Attacks in Optical Neural Networks

O artigo apresenta o PrometheusFree, um framework para redes neurais ópticas que detecta concorrentemente ataques de injeção de falhas a laser, utilizando uma técnica inovadora de perturbação de divisão de comprimento de onda (WDP) para reduzir significativamente a taxa de sucesso dos ataques e melhorar a precisão da detecção.

Kota Nishida, Yoshihiro Midoh, Noriyuki Miura + 3 more2026-03-12🔬 physics.optics

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

Este artigo apresenta o AUTOTEE, a primeira abordagem baseada em Grandes Modelos de Linguagem (LLMs) que automatiza a identificação, transformação e portabilidade de funções sensíveis para Ambientes de Execução Confiáveis (TEEs), alcançando altas taxas de sucesso na adaptação de código Java e Python com intervenção mínima do desenvolvedor.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR