AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

AttriGuard è un nuovo sistema di difesa per agenti LLM che contrasta l'iniezione indiretta di prompt (IPI) utilizzando l'attribuzione causale e test controfattuali paralleli per verificare se le chiamate agli strumenti sono realmente motivate dall'intento dell'utente e non da osservazioni non attendibili, ottenendo così un tasso di successo degli attacchi nullo con una perdita minima di utilità.

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan QinThu, 12 Ma💻 cs

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

Questo studio analizza l'efficacia dell'apprendimento federato incrementale con modelli LSTM per migliorare la resilienza a lungo termine dei sistemi di rilevamento delle intrusioni nelle reti IoT, dimostrando che strategie come l'apprendimento cumulativo e rappresentativo offrono le prestazioni più stabili di fronte al drift concettuale, pur rispettando i vincoli di risorse dei dispositivi.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh KalakotiThu, 12 Ma💻 cs

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Questo studio ricalibra le aspettative sull'auditing automatizzato dei contratti intelligenti, dimostrando che gli agenti AI, sebbene capaci di rilevare vulnerabilità note, mancano di stabilità e non riescono a sfruttare completamente le falle in scenari reali, evidenziando la necessità di un approccio ibrido uomo-macchina piuttosto che una soluzione completamente autonoma.

Chaoyuan Peng, Lei Wu, Yajin ZhouThu, 12 Ma💻 cs

Backdoor Directions in Vision Transformers

Questo paper indaga come gli attacchi backdoor siano rappresentati nei Vision Transformers, identificando una specifica "direzione del trigger" nelle attivazioni del modello che ne conferma il ruolo causale, permettendo di tracciare l'elaborazione delle caratteristiche malevole, analizzare le differenze tra trigger statici e distribuiti, e proporre un metodo di rilevamento basato sui pesi senza necessità di dati.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan PicekThu, 12 Ma💻 cs

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Il paper presenta SPARK, un framework di jailbreak che aggira le difese dei modelli testo-video sfruttando prompt apparentemente innocui che combinano ancoraggi di scena neutri, trigger auditivi latenti e modulatori stilistici per indurre la generazione di contenuti non sicuri mantenendo l'intento originale.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong LiuMon, 09 Ma💻 cs

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Questo studio introduce il rischio di privacy nell'orchestrazione degli strumenti (TOP-R), un nuovo pericolo in cui gli agenti autonomi sintetizzano informazioni sensibili da frammenti non sensibili, presentando un framework formale, un benchmark (TOP-Bench) e strategie di mitigazione che migliorano significativamente il compromesso tra utilità e sicurezza.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin HuMon, 09 Ma🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Il paper introduce WBC, un nuovo metodo di attacco per l'inferenza di appartenenza che supera i limiti delle tecniche globali analizzando segnali localizzati tramite finestre scorrevoli, dimostrando così una maggiore efficacia nel rilevare i dati di addestramento memorizzati nei modelli linguistici su larga scala.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui LiMon, 09 Ma🤖 cs.AI

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Il paper propone "Traversal-as-Policy", un metodo che distilla i log di esecuzione in un Gated Behavior Tree eseguibile per trasformare la navigazione dell'albero in una politica di controllo verificabile, migliorando significativamente il successo, la sicurezza e l'efficienza degli agenti LLM autonomi su benchmark complessi.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI