Steering Awareness: Models Can Be Trained to Detect Activation Steering
이 논문은 언어 모델이 활성화 조작 (activation steering) 의 유무와 개념을 탐지할 수 있는 '조작 인식 (steering awareness)' 능력을 학습할 수 있음을 보여주며, 이는 조작이 탐지 불가능하다는 가정을 깨뜨리고 조작 기반 안전 평가의 장기적 신뢰성에 의문을 제기합니다.
1077 편의 논문
이 논문은 언어 모델이 활성화 조작 (activation steering) 의 유무와 개념을 탐지할 수 있는 '조작 인식 (steering awareness)' 능력을 학습할 수 있음을 보여주며, 이는 조작이 탐지 불가능하다는 가정을 깨뜨리고 조작 기반 안전 평가의 장기적 신뢰성에 의문을 제기합니다.
이 논문은 기존 '생성 전 사고' 방식의 한계를 극복하고, 추론과 생성을 병렬로 수행하여 개인화된 장문 생성의 효율성과 적응성을 동시에 개선하는 'FlyThinker' 프레임워크를 제안합니다.
이 논문은 KV 캐시 재사용을 가능하게 하고 학습 복잡도를 줄여 기존 확산 모델의 한계를 극복함과 동시에 autoregressive 모델에 필적하는 성능과 속도를 달성한 새로운 병렬 디코딩 모델인 'ReFusion'을 제안합니다.
이 논문은 인지 부하 이론을 기반으로 컨텍스트의 고정된 순서 구조를 완화하여 불필요한 인지 부하를 줄이고, OLMo-2 모델을 기반으로 한 RePo 메커니즘을 통해 노이즈가 많은 맥락이나 긴 문맥에서도 성능을 향상시키는 새로운 언어 모델 접근법을 제안합니다.
이 논문은 기존 벤치마크가 포착하지 못하는 새로운 MCP(모델 컨텍스트 프로토콜) 안전 위험을 평가하기 위해 실제 MCP 서버를 기반으로 구축된 포괄적인 벤치마크 'MCP-SafetyBench'를 제안하고, 이를 통해 주요 LLM 들이 여전히 MCP 공격에 취약하며 안전성과 유용성 간의 트레이드오프가 존재함을 규명합니다.
이 논문은 텍스트 기반 환경에서 대규모 언어 모델이 충실도, 확장성, 에이전트 효용성이라는 세 가지 차원에서 세계 모델로 기능할 수 있음을 검증하고, 행동 커버리지와 환경 복잡도에 따라 에이전트 학습을 지원하는 구체적인 조건과 한계를 규명했습니다.
이 논문은 단일 모델 호출로 여러 토큰을 예측하여 생성 속도를 2.4 배 향상시키는 '병렬 토큰 예측 (PTP)' 프레임워크를 제안하고, 이를 통해 기존 언어 모델의 순차적 디코딩 한계를 극복함을 보여줍니다.
이 논문은 이벤트 기반 질문 답변과 설득적 응답 생성이라는 두 가지 실제 시나리오에서 도구와 계획이 LLM 의 사고에 미치는 영향을 비용과 지연 시간을 고려하여 평가한 결과, 복잡한 작업에서는 도구 활용이 정확도를 높이지만 지연 시간을 크게 증가시키고, 단순 작업에서는 오히려 성능을 저하시킬 수 있음을 보여주어 작업 특성에 맞는 모델 크기와 에이전트 복잡도의 신중한 선택이 필요함을 강조합니다.
이 논문은 LLM 의 성능을 결정하는 촉진과 억제 역할을 동시에 고려하고 우연적 행동을 보정하는 대비 학습 방식을 도입한 'NeuronLLM' 프레임워크를 제안하여, 기존 방법론이 간과했던 태스크 수준의 LLM 신경 메커니즘 해석의 한계를 극복하고 다양한 NLP 작업에서 우수한 성능을 입증했습니다.
이 논문은 제한된 학술적 자원으로도 효율적으로 학습 가능하며, 화자 목소리, 대화 주제, 백채널링 및 중단과 같은 대화 행위를 명시적 지시를 통해 제어할 수 있는 최초의 오픈 소스 풀-듀플렉스 대화형 음성 모델인 'F-Actor'를 제안합니다.
이 논문은 대규모 언어 모델이 무의미한 단어로 대체된 텍스트에서도 구조적 패턴을 통해 의미를 복원할 수 있는 놀라운 능력을 보여주며, 패턴 매칭이 진정한 지능의 핵심 요소임을 입증합니다.
이 논문은 사전 훈련 단계에서 Layer-Adaptive Expert Pruning (LAEP) 알고리즘을 도입하여 효율성을 49% 향상시키고 파라미터를 33.3% 줄인 1010B 총 파라미터 규모의 오픈소스 MoE 기반 기업용 대규모 언어 모델 'Yuan3.0 Ultra'를 제안합니다.
이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.
이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.
이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.
이 논문은 화학 추론을 자연어 기반의 명시적 사고 과정 대신 연속적인 잠재 공간에서 수행하도록 하는 'LatentChem'을 제안하여, 텍스트 생성을 최소화하면서도 추론 속도를 10 배 이상 향상시키고 정확도를 크게 개선했음을 보여줍니다.
본 논문은 대화형 API 발견을 위한 스키마 가이드 대화 (SGD) 와 LLM 도구 통합 표준인 모델 컨텍스트 프로토콜 (MCP) 이 동일한 패러다임을 공유함을 규명하고, 이를 통해 AI 시스템의 감시 가능성과 확장성을 확보하는 5 가지 설계 원칙과 3 가지 새로운 통찰을 제시합니다.
이 논문은 AI 심리치료의 잠재적 위험을 평가하기 위해 역동적인 인지 - 정서 모델을 갖춘 시뮬레이션 환자 에이전트와 임상적 검증이 된 환자 군을 활용한 자동화된 임상 AI 레드팀링 프레임워크를 제안하고, 알코올 사용 장애 시나리오를 통해 AI 가 환자의 망상을 검증하거나 자살 위험을 완화하지 못하는 등 중대한 안전 결함을 드러냈음을 보여줍니다.
이 논문은 LLM 재일브랙 기술의 빠른 진화에 대응하여 논문 내용을 실행 가능한 모듈로 자동 변환하고 표준화된 평가를 가능하게 하는 다중 에이전트 시스템인 'Jailbreak Foundry(JBF)'를 제안합니다.
이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.