REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning
이 논문은 대형 추론 모델의 과도한 추론으로 인한 높은 추론 비용 문제를 해결하기 위해, 효율적인 온라인 학습을 위한 작은 반성 모델과 반성 보상 메커니즘을 도입하여 성능을 유지하면서 추론 비용을 36% 절감하는 REA-RL 방법을 제안합니다.
2559 편의 논문
이 논문은 대형 추론 모델의 과도한 추론으로 인한 높은 추론 비용 문제를 해결하기 위해, 효율적인 온라인 학습을 위한 작은 반성 모델과 반성 보상 메커니즘을 도입하여 성능을 유지하면서 추론 비용을 36% 절감하는 REA-RL 방법을 제안합니다.
이 논문은 LLM 의 편집된 가중치만을 기반으로 편집된 개체 엔티티를 추적하고, 추가 정보 없이 편집을 되돌리는 새로운 방법을 제안하여 LLM 을 악의적인 조작으로부터 보호하는 새로운 연구 방향을 제시합니다.
이 논문은 실제 대화 환경에서의 아첨 행위를 평가하기 위한 새로운 벤치마크인 SYCON Bench 를 제안하고, 정렬 튜닝이 아첨을 심화시키는 반면 모델 스케일링과 추론 최적화는 이를 완화하며, 3 인칭 관점 프롬프팅이 아첨을 크게 감소시킨다는 사실을 17 개의 대규모 언어 모델을 통해 실증했습니다.
이 논문은 기존 벤치마크의 한계를 극복하고 LLM 의 실제 추론 능력을 평가하기 위해 블룸의 분류학에 기반한 'DeepQuestion' 프레임워크를 제안하며, 이를 통해 복잡한 현실 세계 과제에서 모델 성능이 급격히 저하됨을 입증했습니다.
이 논문은 LLM 이 자동으로 구축하고 갱신하는 하이브리드 지식 그래프 기반의 외부 메모리 프레임워크를 제안하여, 다양한 검색 메커니즘과 시간적 의존성을 고려한 개인화된 LLM 에이전트의 성능과 견고성을 입증합니다.
본 논문은 외부 문서 접근 없이 kNN 검색기의 행동을 모방하도록 사전 훈련된 경량 MLP 모듈을 도입하여, RAG 의 높은 지연 시간과 파인튜닝의 포getting 문제를 해결하면서도 추론 속도를 2.5 배 향상시키고 정확도와 지식 활용 능력을 크게 개선하는 'MLP Memory'를 제안합니다.
이 논문은 Llama-3.1 모델을 기반으로 고에너지 물리학 분야별 추상문으로 파인튜닝한 20 개의 전문 대규모 언어 모델 'FeynTune'을 개발하고, 이를 다양한 상업용 모델과 비교하여 해당 분야 특화 모델 개발에 대한 통찰을 제시합니다.
이 논문은 인간과 로봇이 자연어를 통해 주도권을 주고받으며 협력하는 'MICoBot' 시스템을 제안하고, 18 명의 인간 참가자를 대상으로 한 실험을 통해 기존 모델 대비 작업 성공률과 사용자 경험을 크게 향상시켰음을 입증합니다.
이 논문은 기존 자기일관성 기법들의 단점을 보완하여, 학습 가능한 토큰 임베딩을 활용해 짧은 답변과 긴 답변 모두에서 높은 정확도와 낮은 계산 오버헤드를 보장하는 '잠재 자기일관성 (LSC)' 방법을 제안합니다.
이 논문은 기존 아랍어 데이터셋을 통합하여 대규모 주관성 평가용 데이터셋 'AraDhati+'를 구축하고, 이를 기반으로 다양한 아랍어 언어 모델을 미세 조정 및 앙상블하여 아랍어 텍스트의 주관성 분류 정확도를 97.79%까지 향상시킨 새로운 접근법을 제시합니다.
이 논문은 하이퍼파라미터 없이 정보 이론적 접근 방식을 통해 고온 (high-temperature) 환경에서도 기존 샘플링 방법보다 우수한 품질과 효율성을 보이는 새로운 LLM 디코딩 전략인 'p-less 샘플링'을 제안하고 실험적으로 검증합니다.
이 논문은 사전 수집된 오프라인 데이터와 모델 정책 간의 분포 불일치 문제를 해결하기 위해, 메타 러너를 활용한 온-폴리시 샘플링과 오프라인 데이터의 동적 균형을 통해 학습 효율성을 높이고 주석 비용을 42% 절감하는 '메타-가중 적응형 선호도 최적화 (MetaAPO)' 프레임워크를 제안합니다.
이 논문은 거대한 데이터셋이 필수적이라는 기존 통념을 깨고, 약 2T 토큰의 고품질 데이터로 선별 및 재샘플링하여 사전 학습한 후 사후 학습을 거친 'MobileLLM-R1'을 개발함으로써, 수백만 파라미터급 소형 모델에서도 대규모 데이터 없이도 뛰어난 추론 능력을 달성할 수 있음을 증명합니다.
이 논문은 언어 모델이 문맥 자유 문법 (CFG) 의 하위 구조인 '서브문법'을 어떻게 학습하는지 이론적으로 분석하고, 손실 함수가 선형적으로 재귀하며 파라미터화된 모델이 서브문법을 병렬적으로 학습한다는 것을 증명하는 동시에, 실제 실험을 통해 작은 모델은 서브문법 사전 학습의 이점을 보이지만 큰 모델조차 깊은 재귀에는 한계가 있음을 밝혔습니다.
이 논문은 LLM 의 특징을 자연어보다 더 정확하고 일관되며 구조화된 '시맨틱 정규식 (semantic regexes)'으로 자동 해석하여 모델의 이해도를 높이고 새로운 분석을 가능하게 하는 방법을 제안합니다.
이 논문은 고정된 벤치마크의 한계를 극복하고, 평가 시 LLM 을 활용한 확률적 문장 재구성을 통해 텍스트 임베딩 모델의 실제 강건성을 더 정확하게 측정하는 새로운 평가 프로토콜인 PTEB 를 제안합니다.
이 논문은 소량의 보정 데이터로 인한 구조적 가지치기 오류를 해결하기 위해 출력 표현의 기하학적 구조를 보존하는 회전 제약 보상 방법과 분산 인식 중요도 점수를 결합하여 LLM 의 성능을 효과적으로 유지하는 RCPU 를 제안합니다.
이 논문은 추론 과정의 엔트로피 패턴을 분석하여 '과도한 사고' 현상을 규명하고, 문제 난이도에 따라 추론 전략을 동적으로 조정하는 경량 프레임워크 'DiffAdapt'를 제안함으로써 LLM 의 토큰 효율성을 크게 향상시키면서도 정확도를 유지하는 방법을 제시합니다.
이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.
이 논문은 적은 데이터와 연산 비용으로 파라미터 효율적 미세 조정 (PEFT) 과 지속적 사전 학습 (CPT) 을 활용하여 퀘벡 프랑스어 방언에 특화된 대규모 언어 모델을 개발하고, 소수 언어 커뮤니티의 접근성을 향상시키는 비용 효율적인 방법을 제시합니다.