AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
이 논문은 LLM 에이전트의 간접 프롬프트 주입 공격을 방어하기 위해, 외부 관찰 데이터에 대한 통제적 감쇠와 교반적 재실행을 결합하여 도구 호출의 인과적 기원을 검증하는 새로운 런타임 방어 시스템 'AttriGuard'를 제안합니다.
315 편의 논문
이 논문은 LLM 에이전트의 간접 프롬프트 주입 공격을 방어하기 위해, 외부 관찰 데이터에 대한 통제적 감쇠와 교반적 재실행을 결합하여 도구 호출의 인과적 기원을 검증하는 새로운 런타임 방어 시스템 'AttriGuard'를 제안합니다.
이 논문은 물리적으로 복제 불가능한 함수 (PUF) 를 활용하여 신경망 모델의 가중치를 고유한 하드웨어 속성과 연결함으로써, 복제된 하드웨어에서의 정확한 실행을 방지하여 지적 재산권을 보호하는 방법을 제시합니다.
이 논문은 CICIoMT2024 데이터셋을 활용하여 IoT 환경의 변화하는 위협에 대응하기 위해 연쇄적 학습 (incremental learning) 과 연방 학습 (federated learning) 을 결합한 LSTM 기반 침입 탐지 시스템의 성능을 분석하고, 개념 변화 (concept drift) 하에서 안정적인 성능을 유지하는 최적의 학습 전략을 제시합니다.
이 논문은 기존 EVM 벤치마크의 데이터 오염과 평가 범위 한계를 지적하며, AI 에이전트가 스마트 컨트랙트 취약점을 탐지할 수는 있으나 인간 개입 없이는 완전 자동화된 감사가 불가능함을 입증했습니다.
이 논문은 비전 트랜스포머 (ViT) 내의 백도어 공격을 유발하는 특정 '트리거 방향'을 규명하고, 이를 통해 공격의 내부 작동 원리를 분석하며 데이터 없이도 경미한 트리거 공격을 탐지하는 새로운 방법을 제안합니다.
이 논문은 DRAM 오류로 인한 RowHammer 공격을 해결하기 위해 메모리 할당과 소프트웨어 다양성 원리를 결합하여 엔트로피 부족 문제를 극복하고, 성능 저하 없이 공격을 지연시켜 대응 시간을 확보하는 'MAD'라는 새로운 방어 기법을 제안합니다.
이 논문은 CVE 데이터베이스를 기반으로 새로운 취약점이 지속적으로 통합될 수 있는 확장 가능한 벤치마크인 TOSSS 를 제안하여, 대규모 언어 모델이 보안과 취약한 코드 조각 중 올바른 선택을 할 수 있는 능력을 0 에서 1 사이의 점수로 평가하는 방법을 제시합니다.
이 논문은 TLS 1.3 핸드셰이크에 적용된 고전적, 하이브리드, 순수 양자내성 암호 (PQC) 알고리즘이 TCP, TLS, HTTP 등 HTTP-over-TLS 트랜잭션의 각 계층에 미치는 영향을 100 TPS 부하 테스트를 통해 실험적으로 분석하고 통계적으로 평가한 연구입니다.
이 논문은 스트리밍 알고리즘의 개인정보보호 모델인 '연속 관찰'에서, 사전에 고정된 데이터 흐름을 가정하는 무관심 (oblivious) 설정과 알고리즘 출력에 기반해 데이터가 선택되는 적응적 (adaptive) 설정 간의 근본적인 차이를 최초로 명확히 증명하여, 무관심 설정에서는 지수적으로 긴 시간 동안 정확한 -DP 알고리즘이 존재하지만 적응적 설정에서는 상수 개수의 시간 단계 후에도 정확성을 보장할 수 없음을 보여줍니다.
이 논문은 NISQ 시대의 회로 절단 및 양자 상태 전송을 기반으로 한 분할 양자 분류기의 적대적 견고성을 연구하며, 이러한 분할 방식에 대한 적대적 교란이 분류기의 중간 계층에 적대적 게이트를 구현하는 것과 밀접한 연관이 있음을 이론적 및 실험적 관점에서 규명합니다.
이 논문은 HVAC 시스템의 압력 센서 데이터를 활용하여 기존 연구의 한계를 넘어 1.2m 거리에서도 명료한 음성 도청이 가능함을 입증한 'HVAC-EAR' 시스템을 제안하고 새로운 사생활 보호 위험을 제기합니다.
이 논문은 중립적인 장면, 잠재적 청각적 트리거, 스타일 조절자를 결합한 모듈형 프롬프트 디자인을 통해 T2V 모델의 안전 장벽을 우회하는 새로운 재킹 프레임워크 'SPARK'를 제안하고, 이를 통해 기존 공격 대비 23% 높은 성공률을 달성했음을 보여줍니다.
이 논문은 다중 도구 오케스트레이션 환경에서 LLM 기반 에이전트가 비민감 정보 조각들을 결합하여 예상치 못한 민감 정보를 유출하는 새로운 프라이버시 위험 (TOP-R) 을 최초로 체계적으로 규명하고, 이를 평가하는 벤치마크와 완화 전략을 제시합니다.
이 논문은 전역 평균 손실에 의존하는 기존 방식을 넘어, 슬라이딩 윈도우를 활용한 국소적 신호의 집합을 통해 파인튜닝된 대규모 언어 모델의 멤버십 추론 공격 정확도를 획기적으로 향상시킨 'WBC' 방법을 제안하고 그 우수성을 입증합니다.
이 논문은 단일 턴 평가의 한계를 극복하고 다회전 프롬프트 인젝션 공격을 탐지하기 위해 LLM 없이 프록시 계층에서 적용 가능한 '피크 + 누적' 점수화 공식을 제안하며, 대규모 데이터셋에서 높은 재현율과 낮은 오탐지율을 달성함을 입증합니다.
이 논문은 동등성 확장을 기반으로 한 E-graph 를 활용하여 구성 단계에서 동등성이 보장되는 복잡하고 다양한 혼합 부울 산술 (MBA) 식을 효율적으로 생성하는 'Scrambler'라는 새로운 난독화 도구를 제안하고, 기존 도구보다 표현력과 복잡성이 향상되었음을 실험을 통해 입증합니다.
이 논문은 오픈핸즈 실행 로그를 기반으로 안전 게이트가 적용된 실행 가능한 행동 트리 (GBT) 를 추출하여 생성 대신 트리 탐색을 제어 정책으로 활용함으로써, 에이전트의 성공률을 획기적으로 높이고 안전 위반을 거의 제로로 줄이며 비용을 절감하는 'Traversal-as-Policy' 프레임워크를 제안합니다.
이 논문은 개별 에이전트의 국소적 프라이버시 제약만으로는 순차적 멀티에이전트 LLM 시스템의 정보 누출을 방지할 수 없음을 이론적으로 규명하고, 상호정보량을 기반으로 한 프라이버시 정규화 학습 프레임워크를 제안하여 시스템 차원의 프라이버시와 유용성 간의 균형을 달성하는 방법을 제시합니다.
이 논문은 디지털 생태계가 자체 신뢰 프로필을 정의하고 이를 통해 주권은 유지하면서 생태계 간 신뢰와 상호운용성을 확립하는 방법론을 제시하고, 특히 제조업 및 데이터 공간에서의 적용 사례와 신뢰의 불안정성에 관한 정리를 다룹니다.
이 논문은 병원 간 데이터 사일과 프라이버시 규제로 인한 협동 학습의 한계를 극복하기 위해, 잠재 공간에서의 키 기반 변환과 서버 측 매핑 네트워크를 활용하여 원본 데이터를 노출하지 않으면서도 정밀한 의료 영상 분할을 가능하게 하는 새로운 프라이버시 보호 프레임워크 (PPCMI-SF) 를 제안하고 그 유효성을 입증합니다.