Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs
이 논문은 체인 오브 씽킹 (CoT) 프롬프팅이 개인정보 (PII) 누출 위험을 증가시키는 현상을 분석하고, 다양한 경량 게이트키퍼를 평가하여 모델과 예산에 따라 유연하게 적용 가능한 하이브리드 완화 전략의 필요성을 제시합니다.
1074 편의 논문
이 논문은 체인 오브 씽킹 (CoT) 프롬프팅이 개인정보 (PII) 누출 위험을 증가시키는 현상을 분석하고, 다양한 경량 게이트키퍼를 평가하여 모델과 예산에 따라 유연하게 적용 가능한 하이브리드 완화 전략의 필요성을 제시합니다.
이 논문은 자연어 기반의 협력적 에이전트 아키텍처인 RACAS 를 제안하여, 소스 코드나 모델 재학습 없이 다양한 로봇 플랫폼 간에 고수준 자율 행동을 가능하게 함으로써 로봇 프로토타이핑의 장벽을 획기적으로 낮췄음을 보여줍니다.
이 논문은 2025 년 1~3 월의 2,939 개 도덕적 딜레마를 분석한 결과, 대규모 언어 모델 (LLM) 의 도덕적 판단이 표면적 편집보다는 서술 시점 변화나 프롬프트 구성과 같은 맥락적·형식적 요소에 의해 크게 좌우되어 불안정하고 조작 가능함을 규명했습니다.
이 논문은 프로그래밍 지식 없이도 베트남어와 영어 텍스트를 분할, 감정 분석, 요약할 수 있는 오픈소스 웹 툴킷 'FreeTxt-Vi'를 소개하고, 하이브리드 분할 전략과 미세 조정된 NLP 모델을 통해 기존 베이스라인과 비교해 경쟁력 있는 성능을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 과 진화 메커니즘을 결합하여 Ptychography 재구성을 위한 새로운 정규화 알고리즘을 자동 발견하고 기존 방법보다 성능을 크게 향상시킨 'Ptychi-Evolve' 프레임워크를 제안합니다.
이 논문은 노이즈 내성, 정보 통합, 부정적 거부, 반사실적 내성 등 네 가지 시나리오에서 지식 그래프 기반의 GraphRAG 가 기존 RAG 베이스라인보다 더 견고한 성능을 보임을 입증하고, 이를 통해 현실 세계의 신뢰할 수 있는 RAG 시스템 설계에 대한 통찰을 제공합니다.
이 논문은 전 세계 다양한 지역을 대상으로 한 대규모 설문을 통해 문화의 정의와 생성형 AI 의 문화적 표현에 대한 기대를 실증적으로 분석하고, 참여적 접근과 종교·전통 등 특정 문화 차원을 우선시하며 문화적 '적선 (redlines)'을 고려한 민감성 프레임워크를 포함한 개발 권고안을 제시합니다.
이 논문은 3 차 텐서의 L-곱을 기반으로 한 구조화된 스펙트럼 분해법을 도입하여 임베딩 차원을 p 개의 독립적인 스펙트럼 서브-트랜스포머로 분해함으로써, 기존 트랜스포머의 의미와 성능을 유지하면서 인코더 파라미터를 최대 75% 까지 줄인 '텐서 트랜스포머 (Tensor Transformer)' 아키텍처를 제안합니다.
이 논문은 파라과이의 공식 언어인 과라니어를 사례로 들어, 텍스트 중심의 AI 설계가 구어적 언어와 원주민 공동체를 소외시킨다고 비판하며, 구어적 관행을 최우선으로 하는 다중 에이전트 아키텍처를 제안하여 문화적 토대를 갖춘 진정한 AI 구현을 주장합니다.
이 논문은 코드베이스에 대한 경량화된 사전 탐색을 통해 불충분한 사용자 요청을 포괄적인 문제 진술로 변환하는 'CodeScout'을 제안함으로써, 소프트웨어 에이전트의 실패 패턴을 줄이고 SWEBench-Verified 벤치마크에서 해결률을 20% 향상시켰다고 요약할 수 있습니다.
이 논문은 기존 학술 정보 추출 데이터셋이 코드 저장소의 구현 세부사항을 간과하고 있다는 문제를 해결하기 위해, README 파일에서 10 가지 엔티티 유형으로 10,000 개 이상의 주석을 포함하는 200 개의 수동 주석 데이터셋 'NERdME'를 제안하고 이를 통해 연구 아티팩트 검색 및 메타데이터 통합을 지원할 수 있음을 입증합니다.
이 논문은 환자 생성 텍스트에서 구조화된 환자 목소리 정보를 추출하기 위한 벤치마크인 PVminer 와 이를 위해 개발된 PVminerLLM 을 소개하며, 작은 규모의 모델로도 높은 성능을 달성하여 환자 중심 연구 및 임상 품질 개선을 위한 확장 가능한 분석을 가능하게 함을 보여줍니다.
이 논문은 인지과학과 학습과학 등 다양한 분야의 연구를 바탕으로 개발된 4 가지 범주 (학습 지원, 학습 지원, 사회정서 및 동기 부여 지원, 물류 지원) 로 구성된 튜터링 행동 분류 체계를 제시하여, 대규모 튜터링 대화 분석과 학습 결과와의 연관성 연구를 가능하게 한다고 요약할 수 있습니다. *(참고: 원문 초록의 4 가지 범주 중 'tutoring support'와 'learning support'가 영어로 중복되어 표기된 것으로 보이나, 번역 시 문맥상 '학습 지원'과 '사회정서 및 동기 부여 지원' 등 네 가지 주요 영역을 포괄하는 분류 체계임을 강조하여 요약하였습니다.)* **더 간결한 한 문장 요약:** 이 논문은 National Tutoring Observatory 의 대규모 튜터링 대화 분석을 위해 인지과학 및 학습과학 이론과 실제 데이터에 기반하여 개발된, 튜터의 교수적 행동을 체계적으로 분류하는 새로운 분류 체계를 제시합니다.
이 논문은 AI 에이전트의 안전성 주장을 검증하기 위해 신뢰할 수 있는 실행 환경 (TEE) 을 활용하여 특정 오픈소스 가드레일이 실행되었음을 암호학적으로 증명하는 'Proof-of-Guardrail' 시스템을 제안하고, 그 구현 및 한계를 평가합니다.
RouteGoT 는 그래프 기반 추론 과정에서 계획 및 종합 단계에는 강력한 모델을, 하위 작업에는 경량 모델을 동적으로 할당하고 예산 제약을 통합하여 정확도를 유지하거나 향상시키면서 토큰 사용량을 대폭 줄이는 비용 효율적인 라우팅 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 환각 현상을 스패너 단위로 국소화하고, 그 발생 메커니즘을 규명하며, 외부 증거를 추적하는 정교한 프레임워크인 'HART'를 제안하고 이를 검증하기 위한 구조화된 데이터셋을 구축하여 기존 방법론보다 우수한 성능을 입증했습니다.
이 논문은 대규모 언어 모델의 테스트 시간 적응을 위한 다수 샷 프롬프팅의 효과와 한계를 실증적으로 분석하여, 구조화된 작업에서는 유익하지만 개방형 생성 작업에서는 선택 전략에 민감하고 효과가 제한적일 수 있음을 규명했습니다.
이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.
이 논문은 SparseGPT 의 사전 정의된 가지치기 순서의 한계를 극복하기 위해 가지치기 손실 크기에 따라 가중치와 블록을 재배열하는 'ROSE'를 제안하여, 다양한 대규모 언어 모델에서 기존 방법보다 더 정확한 원샷 가지치기 성능을 달성함을 보여줍니다.
이 논문은 기존 답변 후 신뢰도를 추정하는 방식의 한계를 극복하기 위해, GRPO 강화학습을 활용해 답변 정확도와 신뢰도 보정을 동시에 최적화하는 'CoCA' 프레임워크를 제안하여 LLM 의 불확실성 추정을 효율적으로 개선하는 새로운 패러다임을 제시합니다.