Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography

Il paper propone PA-B2G, un metodo plug-and-play che sfrutta le equazioni differenziali ordinarie a flusso di probabilità nei modelli di diffusione per garantire una mappatura reversibile e teoricamente provabile tra messaggi segreti e immagini steganografiche, consentendo un controllo regolabile tra qualità, sicurezza e affidabilità senza necessità di riaddestramento.

Jiahao Zhu, Zixuan Chen, Jiali Liu + 3 more2026-03-05💻 cs

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Il paper propone "Inception", il primo attacco di jailbreak multi-turno che sfrutta i meccanismi di memoria dei sistemi di generazione testo-immagine per aggirare i filtri di sicurezza suddividendo e ricorsivamente elaborando le intenzioni malevole, ottenendo un tasso di successo superiore del 20% rispetto alle tecniche esistenti.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Questo articolo caratterizza il "Pattern di Rumore di Sfocatura Sintetica" (SDNP) introdotto da Apple nelle foto in modalità ritratto, proponendo un metodo per la sua stima precisa e dimostrando come il suo utilizzo per mascherare le aree interessate migliori l'accuratezza della verifica forense della fonte della fotocamera, riducendo significativamente i falsi positivi.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

No More, No Less: Least-Privilege Language Models

Il documento propone un nuovo paradigma di deployment per i modelli linguistici basato sul principio del privilegio minimo, introducendo le "Nested Least-Privilege Networks" che permettono di controllare e ridurre le capacità computazionali interne del modello durante l'inferenza senza necessità di riaddestramento, garantendo così una maggiore sicurezza e selettività rispetto ai metodi tradizionali di controllo basati solo sull'output.

Paulius Rauba, Dominykas Seputis, Patrikas Vanagas + 1 more2026-03-05🤖 cs.LG

A Consensus-Bayesian Framework for Detecting Malicious Activity in Enterprise Directory Access Graphs

Questo lavoro presenta un framework bayesiano basato sul consenso che rileva attività malevole nei grafi di accesso alle directory aziendali modellando le interazioni utente-direttorio come dinamiche di opinione e identificando le anomalie attraverso la varianza delle opinioni e la violazione delle strutture di componenti fortemente connesse.

Pratyush Uppuluri, Shilpa Noushad, Sajan Kumar2026-03-05🤖 cs.LG

Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Questo articolo esplora strategie di etichettatura semantica per i questionari di valutazione del rischio di terze parti, dimostrando che un approccio ibrido semi-supervisionato (SSSL) che combina clustering e LLM riduce i costi di elaborazione mantenendo un'efficace precisione nel recupero delle domande rispetto ai metodi tradizionali basati su parole chiave.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul + 1 more2026-03-05🤖 cs.AI

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Questo lavoro presenta "Sleeper Cell", un nuovo metodo di backdoor che utilizza un framework di fine-tuning a due fasi (SFT seguito da GRPO) per iniettare comportamenti maliziosi latenti e altamente specifici in agenti LLM, permettendo loro di eseguire azioni distruttive solo in determinate condizioni future mentre mantengono prestazioni eccellenti e apparenze innocue su tutti gli altri compiti.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

On Google's SynthID-Text LLM Watermarking System: Theoretical Analysis and Empirical Validation

Questo articolo presenta la prima analisi teorica e validazione empirica del sistema di filigrana SynthID-Text di Google, dimostrando attraverso nuovi attacchi e prove matematiche la vulnerabilità del punteggio medio, la superiorità del punteggio bayesiano e l'ottimalità della distribuzione di Bernoulli con parametro 0,5 per la rilevazione robusta dei testi generati dall'IA.

Romina Omidi, Yun Dong, Binghui Wang2026-03-05🤖 cs.AI