Evaluation Awareness in Language Models Has Limited Effect on Behaviour
본 연구는 대형 추론 모델에서 언어화된 평가 인식이 안전, 정렬, 추론 벤치마크에서 실제 행동에 미미한 영향을 미친다는 것을 보여주며, 이러한 인식의 높은 비율이 자동으로 전략적 조작이나 정렬 변조의 증거로 해석되어서는 안 된다는 점을 시사한다.
원저자가 쉬운 설명을 검토한 논문들.
이 페이지에 소개된 모든 논문은 원저자 중 최소 한 명이 저희의 쉬운 설명을 확인하여 내용이 정확하다고 확인했거나 수정 사항을 요청하여 저희가 반영한 것입니다. 확인이 각 문장을 공식적으로 승인한다는 의미는 아니지만, 설명이 논문을 쓴 당사자의 검토를 거쳤다는 뜻입니다.
저자가 검토한 논문 608편 · 371–380 / 608
본 연구는 대형 추론 모델에서 언어화된 평가 인식이 안전, 정렬, 추론 벤치마크에서 실제 행동에 미미한 영향을 미친다는 것을 보여주며, 이러한 인식의 높은 비율이 자동으로 전략적 조작이나 정렬 변조의 증거로 해석되어서는 안 된다는 점을 시사한다.
본 논문은 피드백 조절과 잔차 연결을 통합한 생물학적 타당성을 갖춘 순환 신경망인 FRE-RNN 을 소개하며, 이는 균형 전파의 불안정성과 높은 계산 비용을 극복하고 역전파와 비교 가능한 수렴 속도와 성능을 달성하면서도 실용적인 대규모 뇌 영감 학습을 가능하게 합니다.
프레밍햄 심장 연구에 인과 추론 방법을 적용한 본 논문은 교란 요인으로 인해 표준 관찰 위험 계산기가 관상동맥 심장 질환 위험에 대한 혈압 강하의 절대적 이점을 약 21.8% 과대평가함을 입증함으로써, 임상 의사결정에서 조건부 확률과 개입 효과를 구분할 필요성이 시급함을 강조한다.
본 논문은 리스 표현 정리에 기반한 통합 수학적 프레임워크인 GRALIS 를 소개하며, 이는 선형 귀속 방법들을 위한 표준형을 정립하여 14 개의 공리적 속성 중 13.5 개를 동시에 충족시키고 개별 XAI 방법들이 결여하고 있는 완전성, 수렴성, 다중 스케일 상호작용에 대한 형식적 보장을 제공한다.
본 논문은 2MRS 의 은하 탐사와 전파 강도 매핑을 상호 상관함으로써 스케일의 액시온 유사 입자 암흑물질을 탐지하는 새로운 방법을 제안하며, 우주 마이크로파 배경과 extragalactic 전파 배경에 의해 유도된 자극 방출을 고려할 때 제 2 단계 Square Kilometre Array 가 이러한 신호를 효과적으로 탐지할 수 있음을 입증합니다.
LAMOST 및 Gaia 데이터를 분석하고 N-바디 시뮬레이션으로 검증함으로써, 본 연구는 두 개의 반대 방향으로 전파되는 파동으로 모델링된 방사형 요철이 은하 내부와 외부 원반 사이의 구조적 전이와 관측된 파동 운동학적 특징을 합리적으로 설명할 수 있음을 보여준다.
본 논문은 양자 신경망의 표현력을 특성화하기 위한 새로운 정량적 척도로서 유효 차수()를 제시하며, 이 척도를 극대화하는 고도로 표현력 있는 양자 회로 아키텍처를 자동으로 설계하기 위해 자기 주의 메커니즘을 갖춘 트랜스포머 에이전트를 활용한 강화 학습 프레임워크를 활용합니다.
본 논문은 오프라인 환경에서는 스펙트럼 국소화, 온라인 환경에서는 도메인 분할과 같은 국소화 원리가 커널 복잡도를 포함하는 곱셈 인자에서 로그 또는 다항 로그 성장으로 오정렬에 대한 패널티를 줄일 수 있음을 보여줌으로써 오정렬된 커널화 밴딧 최적화를 개선합니다.
본 논문은 SELFIES 로 학습된 비지도 Transformer-VAE 잠재 공간이 의미 있는 화학적 특성 조절을 지원할 수 있음을 보여주지만, 이러한 제어는 시퀀스 수준의 인공물과 진정한 화학적 신호를 구별하기 위해 해독된 분자와 교란 요인을 고려한 평가를 통해 엄격하게 검증될 때만 유효함을 입증한다.
본 논문은 조건이 나쁜 최적화 하에서 SGD 의 "의심스러운 정렬" 현상에 대한 세밀한 분석을 제공하여, 특정 스텝 크기 조건이 어떻게 손실을 감소시키는 데 역설적으로 실패하는 지배적 부분공간과 정렬되는 기울기 업데이트를 유발하는 반면, 대량 부분공간에 대한 업데이트는 여전히 유효하게 유지되는지를 규명한다.