When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Cet article présente Inception, la première attaque de jailbreak multi-tours exploitant les mécanismes de mémoire des systèmes de génération d'images par texte pour contourner les filtres de sécurité en divisant et en récursant les intentions malveillantes, surpassant ainsi les méthodes existantes avec un taux de réussite supérieur de 20 %.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Cet article caractérise le motif de bruit de défocalisation synthétique (SDNP) propre aux portraits iPhone, propose une méthode pour le modéliser et l'estimer précisément, et démontre son utilité pour la traçabilité des appareils ainsi que pour améliorer la fiabilité de l'authentification de source photographique en masquant les zones affectées.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Le papier présente Text2VLM, un pipeline novateur qui transforme des jeux de données textuels en prompts multimodaux pour évaluer la vulnérabilité des modèles de langage visuel aux attaques par injection de prompts typographiques, révélant ainsi des failles d'alignement critiques et un écart de performance significatif par rapport aux modèles propriétaires.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

A Consensus-Bayesian Framework for Detecting Malicious Activity in Enterprise Directory Access Graphs

Cet article présente un cadre bayésien de consensus pour détecter les comportements malveillants dans les graphes d'accès aux annuaires d'entreprise en modélisant les interactions utilisateurs via des dynamiques d'opinion pondérées et en identifiant les anomalies grâce à une variance d'opinion mise à l'échelle et un score d'anomalie bayésien évolutif.

Pratyush Uppuluri, Shilpa Noushad, Sajan Kumar2026-03-05🤖 cs.LG

Skirting Additive Error Barriers for Private Turnstile Streams

Cet article présente des algorithmes à espace polylogarithmique pour la diffusion continue de statistiques sur des flux de type « turnstile » dans un cadre privé, démontrant que l'ajout d'une erreur multiplicative permet de contourner les bornes inférieures d'erreur additive de T1/4T^{1/4} pour l'estimation du nombre d'éléments distincts et du moment F2F_2.

Anders Aamand, Justin Y. Chen, Sandeep Silwal2026-03-05💻 cs

Federated Inference: Toward Privacy-Preserving Collaborative and Incentivized Model Serving

Cet article propose une perspective unifiée sur l'inférence fédérée en la définissant comme un paradigme collaboratif distinct de l'apprentissage fédéré, qui permet à des modèles privés de coopérer lors de l'inférence tout en préservant la confidentialité des données et des paramètres, tout en identifiant les défis techniques et incitatifs nécessaires à sa mise en œuvre pratique.

Jungwon Seo, Ferhat Ozgur Catak, Chunming Rong + 1 more2026-03-05🤖 cs.AI

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Cette étude présente « Sleeper Cell », une nouvelle méthode d'injection de backdoors latents dans les agents d'IA utilisant des outils via un cadre de fine-tuning efficace en paramètres (SFT-then-GRPO), qui permet d'implanter des comportements malveillants déclenchés par des conditions spécifiques tout en maintenant des performances élevées sur les tâches bénignes et en masquant les actions destructrices.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

Zero-Knowledge Federated Learning with Lattice-Based Hybrid Encryption for Quantum-Resilient Medical AI

Ce papier présente ZKFL-PQ, un protocole cryptographique hybride à trois niveaux intégrant des mécanismes post-quantiques, des preuves à divulgation nulle de connaissance et un chiffrement homomorphe pour sécuriser l'apprentissage fédéré médical contre les attaques par inversion de gradient, l'empoisonnement et les menaces quantiques futures, tout en garantissant l'intégrité des mises à jour de modèle avec une surcharge computationnelle compatible avec les cycles cliniques.

Edouard Lansiaux2026-03-05🤖 cs.AI

On Google's SynthID-Text LLM Watermarking System: Theoretical Analysis and Empirical Validation

Cet article présente la première analyse théorique et validation empirique du système de filigrane SynthID-Text de Google, démontrant notamment la vulnérabilité de la méthode de score moyen face à des attaques par inflation de couches tout en prouvant la robustesse supérieure du score bayésien et l'optimalité d'une distribution de Bernoulli avec un paramètre de 0,5.

Romina Omidi, Yun Dong, Binghui Wang2026-03-05🤖 cs.AI