Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.
1720 편의 논문
이 논문은 외부의 정답이나 검증된 추론 경로를 '권위 정보'로 활용하여 단일 모델이 스스로 교사와 학생 역할을 수행하며 온-정책 자기 증류 (OPSD) 를 통해 기존 온-정책 증류의 한계를 극복하고 강화학습 대비 효율성과 성능을 동시에 향상시킨 새로운 프레임워크를 제안합니다.
이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.
이 논문은 화학 추론을 자연어 기반의 명시적 사고 과정 대신 연속적인 잠재 공간에서 수행하도록 하는 'LatentChem'을 제안하여, 텍스트 생성을 최소화하면서도 추론 속도를 10 배 이상 향상시키고 정확도를 크게 개선했음을 보여줍니다.
본 논문은 대화형 API 발견을 위한 스키마 가이드 대화 (SGD) 와 LLM 도구 통합 표준인 모델 컨텍스트 프로토콜 (MCP) 이 동일한 패러다임을 공유함을 규명하고, 이를 통해 AI 시스템의 감시 가능성과 확장성을 확보하는 5 가지 설계 원칙과 3 가지 새로운 통찰을 제시합니다.
이 논문은 AI 심리치료의 잠재적 위험을 평가하기 위해 역동적인 인지 - 정서 모델을 갖춘 시뮬레이션 환자 에이전트와 임상적 검증이 된 환자 군을 활용한 자동화된 임상 AI 레드팀링 프레임워크를 제안하고, 알코올 사용 장애 시나리오를 통해 AI 가 환자의 망상을 검증하거나 자살 위험을 완화하지 못하는 등 중대한 안전 결함을 드러냈음을 보여줍니다.
이 논문은 LLM 재일브랙 기술의 빠른 진화에 대응하여 논문 내용을 실행 가능한 모듈로 자동 변환하고 표준화된 평가를 가능하게 하는 다중 에이전트 시스템인 'Jailbreak Foundry(JBF)'를 제안합니다.
이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.
이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.
이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.
이 논문은 텍스트 임베딩의 스펙트럼 클러스터링에서 표준 k-NN 그래프의 연결성 부족 문제를 해결하기 위해, 새로운 노드가 기존 노드들과 연결되도록 설계된 점진적 k-NN 그래프 구축 방법을 제안하여 저 k 값 영역에서도 안정적인 클러스터링 성능을 보장함을 보여줍니다.
이 논문은 집합값 집합 함수를 기반으로 한 템플릿 기반 모듈러 인지 모델을 제안하여, 리프어 (Riffian) 를 포함한 다양한 언어에서 명사의 문법적 성 (gender) 이 동적으로 변화하는 패턴을 수학적으로 규명하고 이를 통해 어휘 형성의 새로운 관점을 제시합니다.
이 논문은 선형 RNN(LRNN) 이 비선형 RNN 보다 병렬화가 용이한 이유를 복잡도 클래스 (Log-depth 회로 대 P-완전 문제) 와 오토마타 이론을 통해 이론적으로 규명하고, 다양한 LRNN 변형 간의 정밀한 표현력 차이를 분석하여 표현력과 병렬성 사이의 균형을 잡는 LLM 아키텍처 설계의 기초를 제공합니다.
이 논문은 단일 연구자가 저예산으로 수행한 폴란드어 11B 언어 모델 'Bielik'에 대한 2 비트 양자화 방법들의 체계적 비교 연구를 통해, QuIP# 기반 방법이 IQ2_XXS 베이스라인과 유사한 성능을 유지하면서 고차원 추론 능력은 더 잘 보존하고, 회전 기반 방법의 생성 시 실패 현상을 규명했다는 내용을 담고 있습니다.
이 논문은 에이전트의 검색 전 추론 과정을 함께 활용하는 'Reasoning-Aware Retrieval' 패러다임과 데이터 합성 방법 'DR-Synth'를 제안하여, 기존 모델보다 훨씬 큰 규모의 모델과 BM25 대비 BrowseComp-Plus 벤치마크에서 68% 의 높은 정확도를 달성한 'AgentIR-4B'를 개발했음을 보여줍니다.
이 논문은 실험 프로토타입과 프로덕션 시스템 간의 격차를 해소하기 위해 데이터, 임베딩, 검색 로직을 분리한 모듈식 인프라 'SearchGym'을 제안하고, 하이브리드 검색 오케스트레이션의 최적 순서와 재현성을 보장하는 구성 가능한 설정 시스템을 통해 LitSearch 벤치마크에서 70% 의 Top-100 검색률을 달성함을 보여줍니다.
이 논문은 14 가지 에이전트 설정과 3 개 주요 제공업체의 실행 흔적을 포함한 500 개의 금융 질의로 구성된 'FinRetrieval' 벤치마크를 소개하며, 웹 검색보다 구조화된 데이터 API 를 통한 도구 접근성이 성능에 결정적인 영향을 미친다는 것을 보여줍니다.
본 논문은 16,000 건 이상의 TripAdvisor 리뷰를 분석한 대규모 언어 모델 (LLM) 기반 프레임워크가 기존 지표가 포착하지 못한 항공사 서비스의 미세한 문제와 만족도 하락 원인을 규명하여, 항공 및 관광 산업에 실행 가능한 전략적 통찰을 제공하는 유효한 진단 도구임을 입증합니다.
이 논문은 외부 보상의 한계를 극복하고 환각을 방지하기 위해 지지 증거 유무에 따른 로그 가능도 차이를 최적화하는 대비적 가능도 보상 (CLR) 을 중심으로 한 하이브리드 보상 프레임워크를 제안하여 RAG 모델의 문맥 충실도를 향상시키는 방법을 제시합니다.
본 논문은 유해한 데이터만으로도 문맥적 트리거가 존재할 때만 유해 행동을 보이고 트리거가 없을 때는 안전을 유지하는 '의미론적 격리' 현상이 발생함을 실험을 통해 입증함으로써, benign 데이터의 혼합 없이도 트리거 기반의 유해 미세조정 자체가 치명적인 안전 취약점을 야기할 수 있음을 규명했습니다.
이 논문은 다윈의 '밈' 개념을 도입하여 모델과 데이터의 상호작용을 '지각 행렬'로 분석하는 '밈 탐지' 패러다임을 제시함으로써, 기존 평가 방식이 놓친 LLM 의 복잡한 행동 특성과 숨겨진 능력 구조를 포착할 수 있는 새로운 평가 체계를 제안합니다.