What Makes a Reward Model a Good Teacher? An Optimization Perspective
이 논문은 정확도만으로는 보상 모델의 품질을 평가할 수 없으며, 효율적인 최적화를 위해서는 보상 모델이 충분한 보상 분산을 유도해야 함을 최적화 관점에서 증명하고 있습니다.
2582 편의 논문
이 논문은 정확도만으로는 보상 모델의 품질을 평가할 수 없으며, 효율적인 최적화를 위해서는 보상 모델이 충분한 보상 분산을 유도해야 함을 최적화 관점에서 증명하고 있습니다.
이 논문은 BERT, GPT-2, RoBERTa, XLNet, DistilBERT 등 다양한 트랜스포머 모델을 결합한 하이브리드 프레임워크 'TWSSenti'를 제안하여, 소셜 미디어 및 영화 리뷰 데이터에서 기존 단일 모델보다 뛰어난 정확도 (94~95%) 를 달성한 정서 분석 연구를 요약합니다.
이 논문은 희소 자동 인코더 (SAE) 를 활용하여 대규모 데이터에서 도메인별 하위 집합을 추출하고 구조적 가지치기와 자기 데이터 증류를 결합해, 효율성을 유지하면서도 특정 도메인에서 최첨단 대형 언어 모델보다 우수한 성능을 내는 컴팩트한 도메인 특화 LLM 을 개발하는 'FineScope' 프레임워크를 제안합니다.
이 논문은 대형 추론 모델의 과도한 추론으로 인한 높은 추론 비용 문제를 해결하기 위해, 효율적인 온라인 학습을 위한 작은 반성 모델과 반성 보상 메커니즘을 도입하여 성능을 유지하면서 추론 비용을 36% 절감하는 REA-RL 방법을 제안합니다.
이 논문은 LLM 의 편집된 가중치만을 기반으로 편집된 개체 엔티티를 추적하고, 추가 정보 없이 편집을 되돌리는 새로운 방법을 제안하여 LLM 을 악의적인 조작으로부터 보호하는 새로운 연구 방향을 제시합니다.
이 논문은 실제 대화 환경에서의 아첨 행위를 평가하기 위한 새로운 벤치마크인 SYCON Bench 를 제안하고, 정렬 튜닝이 아첨을 심화시키는 반면 모델 스케일링과 추론 최적화는 이를 완화하며, 3 인칭 관점 프롬프팅이 아첨을 크게 감소시킨다는 사실을 17 개의 대규모 언어 모델을 통해 실증했습니다.
이 논문은 기존 벤치마크의 한계를 극복하고 LLM 의 실제 추론 능력을 평가하기 위해 블룸의 분류학에 기반한 'DeepQuestion' 프레임워크를 제안하며, 이를 통해 복잡한 현실 세계 과제에서 모델 성능이 급격히 저하됨을 입증했습니다.
이 논문은 LLM 이 자동으로 구축하고 갱신하는 하이브리드 지식 그래프 기반의 외부 메모리 프레임워크를 제안하여, 다양한 검색 메커니즘과 시간적 의존성을 고려한 개인화된 LLM 에이전트의 성능과 견고성을 입증합니다.
본 논문은 외부 문서 접근 없이 kNN 검색기의 행동을 모방하도록 사전 훈련된 경량 MLP 모듈을 도입하여, RAG 의 높은 지연 시간과 파인튜닝의 포getting 문제를 해결하면서도 추론 속도를 2.5 배 향상시키고 정확도와 지식 활용 능력을 크게 개선하는 'MLP Memory'를 제안합니다.
이 논문은 Llama-3.1 모델을 기반으로 고에너지 물리학 분야별 추상문으로 파인튜닝한 20 개의 전문 대규모 언어 모델 'FeynTune'을 개발하고, 이를 다양한 상업용 모델과 비교하여 해당 분야 특화 모델 개발에 대한 통찰을 제시합니다.
이 논문은 인간과 로봇이 자연어를 통해 주도권을 주고받으며 협력하는 'MICoBot' 시스템을 제안하고, 18 명의 인간 참가자를 대상으로 한 실험을 통해 기존 모델 대비 작업 성공률과 사용자 경험을 크게 향상시켰음을 입증합니다.
이 논문은 기존 자기일관성 기법들의 단점을 보완하여, 학습 가능한 토큰 임베딩을 활용해 짧은 답변과 긴 답변 모두에서 높은 정확도와 낮은 계산 오버헤드를 보장하는 '잠재 자기일관성 (LSC)' 방법을 제안합니다.
이 논문은 기존 아랍어 데이터셋을 통합하여 대규모 주관성 평가용 데이터셋 'AraDhati+'를 구축하고, 이를 기반으로 다양한 아랍어 언어 모델을 미세 조정 및 앙상블하여 아랍어 텍스트의 주관성 분류 정확도를 97.79%까지 향상시킨 새로운 접근법을 제시합니다.
이 논문은 하이퍼파라미터 없이 정보 이론적 접근 방식을 통해 고온 (high-temperature) 환경에서도 기존 샘플링 방법보다 우수한 품질과 효율성을 보이는 새로운 LLM 디코딩 전략인 'p-less 샘플링'을 제안하고 실험적으로 검증합니다.
이 논문은 사전 수집된 오프라인 데이터와 모델 정책 간의 분포 불일치 문제를 해결하기 위해, 메타 러너를 활용한 온-폴리시 샘플링과 오프라인 데이터의 동적 균형을 통해 학습 효율성을 높이고 주석 비용을 42% 절감하는 '메타-가중 적응형 선호도 최적화 (MetaAPO)' 프레임워크를 제안합니다.
이 논문은 거대한 데이터셋이 필수적이라는 기존 통념을 깨고, 약 2T 토큰의 고품질 데이터로 선별 및 재샘플링하여 사전 학습한 후 사후 학습을 거친 'MobileLLM-R1'을 개발함으로써, 수백만 파라미터급 소형 모델에서도 대규모 데이터 없이도 뛰어난 추론 능력을 달성할 수 있음을 증명합니다.
이 논문은 언어 모델이 문맥 자유 문법 (CFG) 의 하위 구조인 '서브문법'을 어떻게 학습하는지 이론적으로 분석하고, 손실 함수가 선형적으로 재귀하며 파라미터화된 모델이 서브문법을 병렬적으로 학습한다는 것을 증명하는 동시에, 실제 실험을 통해 작은 모델은 서브문법 사전 학습의 이점을 보이지만 큰 모델조차 깊은 재귀에는 한계가 있음을 밝혔습니다.
이 논문은 LLM 의 특징을 자연어보다 더 정확하고 일관되며 구조화된 '시맨틱 정규식 (semantic regexes)'으로 자동 해석하여 모델의 이해도를 높이고 새로운 분석을 가능하게 하는 방법을 제안합니다.
이 논문은 고정된 벤치마크의 한계를 극복하고, 평가 시 LLM 을 활용한 확률적 문장 재구성을 통해 텍스트 임베딩 모델의 실제 강건성을 더 정확하게 측정하는 새로운 평가 프로토콜인 PTEB 를 제안합니다.
이 논문은 소량의 보정 데이터로 인한 구조적 가지치기 오류를 해결하기 위해 출력 표현의 기하학적 구조를 보존하는 회전 제약 보상 방법과 분산 인식 중요도 점수를 결합하여 LLM 의 성능을 효과적으로 유지하는 RCPU 를 제안합니다.