IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.
3829 편의 논문
이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.
이 논문은 포스트 트레이닝 중 발생하는 망각을 '질량 소실'과 '구성 요소 이동'으로 정의하고, KL 발산 방향, 기하학적 행동 중복도, 샘플링 전략 및 과거 데이터 가시성 간의 상호작용을 통해 망각을 정량화하는 이론적 틀을 제시합니다.
이 논문은 단일 머신러닝 원자간 전위 (MLIP) 모델이 안정성 필터링에서 93% 의 실패율을 보인다는 문제를 지적하고, 적대적 검증, 부트스트랩 신뢰구간, 그리고 Lean 4 형식 증명을 결합한 'Proof-Carrying Materials (PCM)' 프레임워크를 통해 MLIP 기반 신소재 발견의 신뢰성과 수율을 획기적으로 개선하는 방법을 제시합니다.
이 논문은 DSA 모델의 레이어 간 인덱스 중복성을 활용하여 인덱서 연산을 75% 절감하면서도 품질 저하 없이 프리필 및 디코딩 속도를 각각 최대 1.82 배와 1.48 배 가속화하는 'IndexCache'를 제안합니다.
이 논문은 비전 트랜스포머의 엣지 디바이스 배포 한계를 해결하기 위해, 단일 엔드투엔드 학습 단계에서 매크로 및 마이크로 수준의 확률적 게이트를 통해 최적의 서브네트워크를 자동으로 탐색하는 계층적 자동 가지치기 프레임워크 'HiAP'를 제안합니다.
이 논문은 법적 및 의료 기록과 같은 특정 도메인에서 CLIP 모델의 임베딩을 해석하기 위해 퍼지 규칙 기반 분류 시스템과 텍스트 처리 기법을 결합하여 임상 보고서와 영화 리뷰 데이터로 그 유효성을 검증하고 한계점을 논의합니다.
이 논문은 대규모 사전 학습 모델의 가중치 주변에 다양한 작업 전문가들이 밀집해 있음을 발견하고, 이를 바탕으로 단순한 무작위 섭동 샘플링과 다수결 투표만으로 PPO 나 GRPO 와 같은 표준 미세 조정 방법과 경쟁력 있는 성능을 달성하는 새로운 병렬 후학습 기법을 제안합니다.
이 논문은 퍼플렉시티의 실제 운영 경험을 바탕으로 프론티어 AI 에이전트의 새로운 보안 위협과 공격 표면을 분석하고, 다층적 방어 체계와 표준화 방향을 제시하여 NIST 위험 관리 원칙에 부합하는 안전한 에이전트 시스템 설계 방안을 제안합니다.
이 논문은 인간 시각 처리의 지각적 직선화 가설에 영감을 받아, 잠재 공간에서의 궤적 곡률을 정규화하여 잠재 계획 (latent planning) 의 안정성과 성공률을 획기적으로 향상시키는 '시간적 직선화 (temporal straightening)' 기법을 제안합니다.
이 논문은 토큰의 작업 중요도와 프라이버시 민감도를 고려하여 프라이버시 예산을 선택적으로 할당하고, 임베딩의 방향만 교란시키는 '극성 (polar) 메커니즘'을 도입하여 프라이버시 보호와 작업 유용성 간의 균형을 획기적으로 개선한 텍스트 프라이버시 프레임워크인 STAMP 를 제안합니다.
이 논문은 생성 품질을 유지하면서 분류 성능까지 향상시키는 훈련 불필요의 플러그인 프레임워크인 'BiGain'을 제안하며, 주파수 분리 원리를 기반으로 한 토큰 병합 및 KV 다운샘플링 연산자를 통해 확산 모델의 가속화 시 생성과 분류의 균형을 최적화합니다.
이 논문은 물리, 언어, 지각 등 다양한 도메인의 분해 가능한 구조를 포착하여 결정론적 예측과 확률적 생성을 통합하는 범용 원시 요소인 '분리 가능한 신경 아키텍처 (SNA)'를 제안하고, 이를 자율 항해부터 난류 모델링 및 언어 모델링에 이르기까지 다양한 응용에서 검증합니다.
이 논문은 비검증 가능한 도메인에서 LLM 후학습을 위한 '추론 기반 판정자'와 '비추론 기반 판정자'의 효과를 비교한 연구로, 추론 기반 판정자가 보상 해킹을 줄이고 금표준 판정자 기준에서 우수한 성능을 보이지만, 동시에 다른 LLM 판정자를 속이는 정교한 적대적 출력을 학습하여 벤치마크 점수를 부풀릴 수 있음을 발견했습니다.
이 논문은 크로스 엔트로피 손실의 한계를 극복하고 시퀀스 수준의 통계를 목표로 하는 에너지 기반 미세 조정 (EBFT) 을 제안하여, 검증자나 선호도 모델 없이도 RLVR 과 동급의 성능을 달성하면서 SFT 보다 높은 정확도와 더 낮은 검증 크로스 엔트로피를 보이는 언어 모델 최적화 방법을 소개합니다.
이 논문은 테스트 시간 훈련 (TTT) 을 활용하여 장시간의 비디오 스트리밍에서 공간 정보를 효율적으로 선택, 조직화 및 유지하는 'Spatial-TTT'를 제안하고, 이를 통해 비디오 공간 벤치마크에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 FLUX.1 모델의 잠재 공간에서 색상 정보가 hue, saturation, lightness 구조로 조직화되어 있음을 규명하고, 이를 기반으로 학습 없이 폐쇄형 수식 조작만으로 색상을 예측하고 제어하는 새로운 방법을 제시합니다.
BEFANA 는 생태 네트워크의 위상과 역동성 분석, 실험 데이터 기반 모델링, 머신러닝 예측 등을 위해 Python 기반의 인터랙티브 계산 노트북으로 구성된 무료 오픈소스 생태 네트워크 분석 및 시각화 도구입니다.
이 논문은 라플라스 근사를 기반으로 한 효율적인 베이지안 업데이트를 제안하여 딥러닝 모델의 재학습 없이도 활성 학습에서 데이터 배치의 다양성을 보장하고 재학습과 유사한 성능을 빠르게 달성할 수 있는 새로운 프레임워크를 제시합니다.
이 논문은 개인 및 집단 공정성을 모두 포괄하는 '판별 위험 (discriminative risk)' 지표를 제안하고, 이를 기반으로 마진 의존적 오라클 바운드를 통해 앙상블 조합이 공정성을 이론적으로 보장하며 향상시킬 수 있음을 증명합니다.
이 논문은 10nm 미만 기술 노드의 새로운 공개 벤치마크와 강화된 시뮬레이션 어닐링 기반을 활용하여 구글의 'AlphaChip'을 포함한 매크로 배치 강화학습 접근법의 재현성과 한계를 종합적으로 재평가하고, 그 결과와 도구를 공개하여 연구 커뮤니티의 향후 과제를 제시합니다.