Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

이 논문은 복잡한 추론 문제에서 발생하는 '학습 절벽' 문제를 해결하기 위해 모델의 학습이 정체될 때만 단계별 힌트를 제공하는 점진적 훈련 프레임워크인 Scaf-GRPO 를 제안하고, 이를 통해 Qwen2.5-Math-7B 모델의 AIME24 벤치마크 성능을 기존 GRPO 대비 44.3% 향상시켰음을 입증합니다.

Xichen Zhang, Sitong Wu, Yinghao Zhu + 4 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

이 논문은 위키피디아 기반의 시각 정보와 분류군 특화 예시를 활용해 다중 모달 대규모 언어 모델로 합성 캡션을 생성하여 생물학적 이미지와 텍스트 간의 정밀한 정렬을 가능하게 하고, 종 분류 및 텍스트 - 이미지 검색 성능을 향상시킨 'BioCAP' 모델을 제안합니다.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards

이 논문은 그룹 롤아웃 시 생성되는 경로의 다양성 부족 문제를 해결하기 위해, 불확실성이 높은 단계에서 분기하고 미리 보며 유사한 경로를 제거하는 'Lookahead Tree-Based Rollouts (LATR)' 전략을 제안하여 GRPO 및 DAPO 알고리즘의 학습 속도와 최종 성능을 크게 향상시켰음을 보여줍니다.

Shangyu Xing, Siyuan Wang, Chenyuan Yang + 2 more2026-03-03💬 cs.CL

When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets

이 논문은 Magpie 프레임워크를 활용하여 인기 있는 오픈소스 선호도 최적화 (DPO) 데이터셋들을 체계적으로 분석하고 품질 기반 필터링을 통해 기존 최상위 데이터셋보다 작으면서도 더 뛰어난 성능을 보이는 새로운 혼합 데이터셋 'UltraMix'를 제안합니다.

Aladin Djuhera, Farhan Ahmed, Swanand Ravindra Kadhe + 3 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

이 논문은 인간의 능동적 시각 메커니즘에서 영감을 받아, 강화 학습과 'Decoupled Turn Policy Optimization (DTPO)' 기법을 통해 각 샘플에 필요한 최소한의 시각 토큰을 자율적으로 결정하고 필요한 경우에만 추가 정보를 획득하는 효율적인 비전 - 언어 모델 'AdaptVision' 을 제안합니다.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Reward Models Inherit Value Biases from Pretraining

이 논문은 보상 모델이 인간 가치 정렬을 위해 설계되었음에도 불구하고, 사전 학습된 기반 모델 (예: Llama 의 '주체성' 선호, Gemma 의 '교감성' 선호) 의 내재적 가치 편향을 계승하여 동일한 학습 과정에서도 일관된 편향이 발생함을 입증함으로써, 안전 및 정렬 노력의 중요성과 기반 모델 선택이 성능 이상으로 가치 판단에 미치는 영향을 강조합니다.

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang + 4 more2026-03-03💬 cs.CL

From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes

이 논문은 MIMIC-IV-Note 데이터셋의 방사선 보고서 분류를 위해 사전 훈련된 GPT-2 모델의 대부분 파라미터를 고정하고 최종 블록과 분류 헤드만 선택적으로 미세 조정함으로써, 계산 비용을 크게 줄이면서도 임상 텍스트 분류의 효율성과 정확성을 달성한 새로운 아키텍처를 제안합니다.

Fariba Afrin Irany, Sampson Akwafuo2026-03-03💬 cs.CL