AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

O artigo apresenta o AttriGuard, uma defesa de runtime para agentes de LLM que combate a injeção indireta de prompts ao utilizar atribuição causal baseada em testes contrafactuais para distinguir chamadas de ferramentas motivadas pela intenção do usuário daquelas induzidas por observações não confiáveis, alcançando uma taxa de sucesso de ataque de 0% com perda mínima de utilidade.

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan QinThu, 12 Ma💻 cs

A PUF-Based Approach for Copy Protection of Intellectual Property in Neural Network Models

O artigo apresenta uma abordagem baseada em Funções de Hardware Inimitáveis (PUFs) para vincular os pesos de modelos de Redes Neurais às propriedades únicas do hardware subjacente, impedindo assim a execução precisa desses modelos em hardware clonado e protegendo a Propriedade Intelectual incorporada.

Daniel Dorfmeister, Flavio Ferrarotti, Bernhard Fischer, Martin Schwandtner, Hannes SochorThu, 12 Ma🤖 cs.LG

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

Este estudo analisa o desempenho de modelos de aprendizado incremental federado com LSTMs para detecção de intrusão em redes IoT sob cenários de ameaças em evolução, demonstrando que abordagens de aprendizado cumulativo e representativo oferecem maior estabilidade contra o desvio de conceito, enquanto métodos baseados em retenção equilibram bem precisão e latência.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh KalakotiThu, 12 Ma💻 cs

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Este artigo reavalia o benchmark EVMbench, demonstrando que, devido a limitações metodológicas como contaminação de dados e falta de controle de scaffolding, os agentes de IA atuais não são estáveis nem capazes de exploração completa em incidentes reais, indicando que a auditoria automatizada total ainda não é viável e que a colaboração humano-IA permanece essencial.

Chaoyuan Peng, Lei Wu, Yajin ZhouThu, 12 Ma💻 cs

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

O artigo apresenta o SPARK, um framework de jailbreak para modelos de texto-para-vídeo que contorna as barreiras de segurança combinando âncoras de cena neutras, gatilhos auditivos latentes e moduladores estilísticos para induzir a geração de vídeos semanticamente inseguros de forma imperceptível.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong LiuMon, 09 Ma💻 cs

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui LiMon, 09 Ma🤖 cs.AI

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

O artigo propõe o "Traversal-as-Policy", um método que distila logs de execução em Árvores de Comportamento Portãoizadas (GBTs) executáveis para substituir a geração livre de LLMs por uma política de controle verificável e segura, demonstrando melhorias significativas em taxas de sucesso, redução de violações e eficiência de custos em benchmarks como SWE-bench Verified e WebArena.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

Privacy-Preserving Collaborative Medical Image Segmentation Using Latent Transform Networks

Este artigo apresenta o PPCMI-SF, um framework colaborativo de segmentação de imagens médicas que preserva a privacidade ao utilizar transformações latentes criptografadas para permitir treinamento multi-institucional com alta precisão e resistência a ataques, sem a necessidade de compartilhar dados brutos.

Saheed Ademola Bello, Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Shujaat KhanMon, 09 Ma💻 cs