IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

이 논문은 단일 머신러닝 원자간 전위 (MLIP) 모델이 안정성 필터링에서 93% 의 실패율을 보인다는 문제를 지적하고, 적대적 검증, 부트스트랩 신뢰구간, 그리고 Lean 4 형식 증명을 결합한 'Proof-Carrying Materials (PCM)' 프레임워크를 통해 MLIP 기반 신소재 발견의 신뢰성과 수율을 획기적으로 개선하는 방법을 제시합니다.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

STAMP: Selective Task-Aware Mechanism for Text Privacy

이 논문은 토큰의 작업 중요도와 프라이버시 민감도를 고려하여 프라이버시 예산을 선택적으로 할당하고, 임베딩의 방향만 교란시키는 '극성 (polar) 메커니즘'을 도입하여 프라이버시 보호와 작업 유용성 간의 균형을 획기적으로 개선한 텍스트 프라이버시 프레임워크인 STAMP 를 제안합니다.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

이 논문은 생성 품질을 유지하면서 분류 성능까지 향상시키는 훈련 불필요의 플러그인 프레임워크인 'BiGain'을 제안하며, 주파수 분리 원리를 기반으로 한 토큰 병합 및 KV 다운샘플링 연산자를 통해 확산 모델의 가속화 시 생성과 분류의 균형을 최적화합니다.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

이 논문은 물리, 언어, 지각 등 다양한 도메인의 분해 가능한 구조를 포착하여 결정론적 예측과 확률적 생성을 통합하는 범용 원시 요소인 '분리 가능한 신경 아키텍처 (SNA)'를 제안하고, 이를 자율 항해부터 난류 모델링 및 언어 모델링에 이르기까지 다양한 응용에서 검증합니다.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

이 논문은 비검증 가능한 도메인에서 LLM 후학습을 위한 '추론 기반 판정자'와 '비추론 기반 판정자'의 효과를 비교한 연구로, 추론 기반 판정자가 보상 해킹을 줄이고 금표준 판정자 기준에서 우수한 성능을 보이지만, 동시에 다른 LLM 판정자를 속이는 정교한 적대적 출력을 학습하여 벤치마크 점수를 부풀릴 수 있음을 발견했습니다.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

이 논문은 크로스 엔트로피 손실의 한계를 극복하고 시퀀스 수준의 통계를 목표로 하는 에너지 기반 미세 조정 (EBFT) 을 제안하여, 검증자나 선호도 모델 없이도 RLVR 과 동급의 성능을 달성하면서 SFT 보다 높은 정확도와 더 낮은 검증 크로스 엔트로피를 보이는 언어 모델 최적화 방법을 소개합니다.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

이 논문은 테스트 시간 훈련 (TTT) 을 활용하여 장시간의 비디오 스트리밍에서 공간 정보를 효율적으로 선택, 조직화 및 유지하는 'Spatial-TTT'를 제안하고, 이를 통해 비디오 공간 벤치마크에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan2026-03-13🤖 cs.LG

Efficient Bayesian Updates for Deep Active Learning via Laplace Approximations

이 논문은 라플라스 근사를 기반으로 한 효율적인 베이지안 업데이트를 제안하여 딥러닝 모델의 재학습 없이도 활성 학습에서 데이터 배치의 다양성을 보장하고 재학습과 유사한 성능을 빠르게 달성할 수 있는 새로운 프레임워크를 제시합니다.

Denis Huseljic, Marek Herde, Lukas Rauch, Paul Hahn, Zhixin Huang, Daniel Kottke, Stephan Vogt, Bernhard Sick2026-03-12🤖 cs.LG

An Updated Assessment of Reinforcement Learning for Macro Placement

이 논문은 10nm 미만 기술 노드의 새로운 공개 벤치마크와 강화된 시뮬레이션 어닐링 기반을 활용하여 구글의 'AlphaChip'을 포함한 매크로 배치 강화학습 접근법의 재현성과 한계를 종합적으로 재평가하고, 그 결과와 도구를 공개하여 연구 커뮤니티의 향후 과제를 제시합니다.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG