Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Deze paper introduceert het Disentangled Safety Hypothesis (DSH), dat aantoont dat veiligheidsmechanismen in grote taalmodellen bestaan uit gescheiden 'herkennings-' en 'uitvoeringsassen', en gebruikt deze inzichten om een nieuwe aanvalsmethode te ontwikkelen die weigeringen effectief kan uitschakelen zonder de kennis van het model te beïnvloeden.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng ChenMon, 09 Ma🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Dit paper introduceert Proof-of-Guardrail, een systeem dat ontwikkelaars in staat stelt met cryptografische bewijzen te verifiëren dat AI-agenten veiligheidsfilters daadwerkelijk hebben doorlopen via een Trusted Execution Environment, hoewel het ook waarschuwt voor het risico dat kwaadwillende ontwikkelaars deze filters toch kunnen omzeilen.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang RenMon, 09 Ma🤖 cs.AI

Statistical Analysis and Optimization of the MFA Protecting Private Keys

Dit artikel presenteert een geoptimaliseerd multifactorauthenticatiesysteem voor het beveiligen van privésleutels, dat gebruikmaakt van een nieuwe bit-truncatiemethode voor template-loze biometrie, SRAM PUF-gebaseerde tokens en wachtwoorden om foutloze tijdelijke sleutels te genereren en zowel de vals-positieve als vals-negatieve tarieven te verlagen.

Mahafujul Alam, Julie B. Heynssens, Bertrand Francis CambouMon, 09 Ma💻 cs

SemFuzz: A Semantics-Aware Fuzzing Framework for Network Protocol Implementations

SemFuzz is een semantisch bewust fuzzing-framework dat grote taalmodellen gebruikt om regels uit RFC-documenten te extraheren en testgevallen genereert die deze regels bewust schenden, waardoor diepe semantische kwetsbaarheden in netwerkprotocol-implementaties kunnen worden ontdekt die door bestaande methoden vaak worden gemist.

Yanbang Sun, Quan Luo, Yuelin Wang, Qian Chen, Benjin Liu, Ruiqi Chen, Qing Huang, Xiaohong Li, Junjie WangMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Dit paper introduceert APIDiffer, het eerste specificatie-gestuurde differentiatietestframework dat automatisch API-inconsistenties in de Ethereum-klantenecosysteem detecteert en zo 72 bugs heeft blootgelegd met een aanzienlijk hogere codecoverage en een lagere rate van vals-positieven dan bestaande methoden.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

An Integrated Failure and Threat Mode and Effect Analysis (FTMEA) Framework with Quantified Cross-Domain Correlation Factors for Automotive Semiconductors

Dit artikel introduceert een geïntegreerd FTMEA-raamwerk voor automotive halfgeleiders dat functionele veiligheid en cyberbeveiliging systematisch combineert door middel van kwantitatieve cross-domein correlatiefactoren, waardoor een nauwkeurigere risicoprioritering en effectievere mitigatiestrategieën mogelijk worden.

Antonino Armato, Marzana Khatun, Sebastian FischerMon, 09 Ma💻 cs