Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Dit paper introduceert drie nieuwe aanvallen die gevoelige invoer van grote taalmodellen via de KV-cache kunnen reconstrueren en stelt KV-Cloak voor, een lichtgewicht verdedigingsmechanisme dat deze privacyrisico's effectief neutraliseert zonder de prestaties of nauwkeurigheid van het model te beïnvloeden.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan QinThu, 12 Ma💬 cs.CL

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing ChenThu, 12 Ma🤖 cs.LG

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Dit paper introduceert Hubscan, een open-source beveiligingsscanner die hubness-vergiftiging in Retrieval-Augmented Generation-systemen detecteert door een multi-detectorarchitectuur te gebruiken die statistische analyse, clusterverdeling en stabiliteitstests combineert om schadelijke 'hubs' in vectorindexen te identificeren.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany SaadeThu, 12 Ma🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Dit onderzoek toont aan dat veiligheidsgealigneerde grote taalmodellen een 'defensieve weigeringsbias' vertonen waarbij ze geautoriseerde cyberverdedigingstaken onterecht weigeren vanwege het gebruik van gevoelige termen, zelfs wanneer expliciete autorisatie wordt gegeven, wat wijst op een tekortkoming in het onderscheiden van intentie en autorisatie.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q KnightThu, 12 Ma🤖 cs.AI

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Dit onderzoek evalueert de robuustheid en pedagogische veiligheid van offline grote taalmodellen voor het Turks erfgoedonderwijs en concludeert dat modellen met 8 tot 14 miljard parameters de beste balans bieden tussen kosten en veiligheid, aangezien grotere schaal niet automatisch leidt tot betere weerstand tegen anomalieën of minder sycofantische bias.

Edibe Yilmaz, Kahraman KostasThu, 12 Ma💬 cs.CL

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Dit artikel evalueert hoe goed autonome cyberaanval-agenten generaliseren bij onverwachte IP-adreswijzigingen en concludeert dat hoewel prompt-gedreven LLM-agenten de beste prestaties leveren op onbekende scenario's, dit ten koste gaat van transparantie en rekenkracht, terwijl andere aanpassingsmethoden significant prestatieverlies vertonen.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian GarciaThu, 12 Ma💻 cs

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Dit artikel introduceert FLA³, een federatief leerplatform dat door middel van runtime-beleidshandhaving, attributengebaseerde toegangscontrole en cryptografische verantwoording governance-risico's aanpakt en zo privacybewuste, schaalbare AI-toepassingen in grensoverschrijdende gezondheidszorg mogelijk maakt.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

Het paper introduceert ADVERSA, een geautomatiseerd red-teaming-framework dat de degradatie van veiligheidsbarrières in grote taalmodellen tijdens meervoudige interacties meet en de betrouwbaarheid van beoordelaars kwantificeert, waarbij experimenten aantonen dat succesvolle jailbreaks zich voornamelijk in de vroege rondes voordoen in plaats van door langdurige druk te accumuleren.

Harry Owiredu-AshleyThu, 12 Ma🤖 cs.AI