cs.LG 편의 논문 | Gist.Science

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

이 논문은 배치 베이지안 최적 실험 설계 (BOED) 문제를 확률 측도 공간으로 확률론적으로 승격시키고 엔트로피 정규화를 도입하여, Wasserstein 기울기 흐름과 입자 기반 알고리즘을 통해 고차원 비볼록 최적화 문제를 해결하는 새로운 접근법을 제안합니다.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

이 논문은 외부 교란과 모델 불확실성 하에서도 안정적인 성능을 보장하기 위해, 작업 수행도와 교란 강도를 균형 있게 조절하는 분수 목적 함수를 도입하여 학습된 사용자와 적대적 교란 정책 간의 미니맥스 최적화를 수행하는 'MMDDPG' 프레임워크를 제안합니다.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

이 논문은 다양한 입력과 출력 모달리티를 처리하는 범용 Any-to-Any 멀티모달 모델의 효율적인 분산 서빙을 위해 컴포넌트 분리 및 독립적 확장이 가능한 'Cornserve' 시스템을 제안하고, 이를 통해 처리량과 지연 시간 성능을 크게 향상시켰음을 보여줍니다.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

이 논문은 텍스트 기반의 3D 인간 - 사물 상호작용 생성의 정확도와 품질을 획기적으로 개선하기 위해 멀티모달 대규모 언어 모델을 활용한 고품질 데이터 구축과 새로운 텍스트 -to-3D 파이프라인을 제안하는 'Hoi3DGen' 프레임워크를 소개합니다.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

이 논문은 복잡한 강화학습 환경을 수개월의 엔지니어링 없이 10 달러 미만의 비용으로 고성능 구현체로 자동 변환하는 재사용 가능한 레시피를 제시하며, 이를 통해 다양한 환경에서 기존 대비 최대 22,320 배의 성능 향상과 의미적 동등성을 입증했습니다.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

이 논문은 기존 다단계 생성 모델의 계산 비효율성과 기존 증류 방법의 품질 저하 문제를 해결하기 위해, 하이브리드 전략을 통해 궤적 정확도와 화질을 모두 유지하는 소수 단계의 비디오 생성 프레임워크 'FlashMotion'과 이를 평가하는 벤치마크 'FlashBench'를 제안합니다.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

이 논문은 포스트 트레이닝 중 발생하는 망각을 '질량 소실'과 '구성 요소 이동'으로 정의하고, KL 발산 방향, 기하학적 행동 중복도, 샘플링 전략 및 과거 데이터 가시성 간의 상호작용을 통해 망각을 정량화하는 이론적 틀을 제시합니다.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

이 논문은 단일 머신러닝 원자간 전위 (MLIP) 모델이 안정성 필터링에서 93% 의 실패율을 보인다는 문제를 지적하고, 적대적 검증, 부트스트랩 신뢰구간, 그리고 Lean 4 형식 증명을 결합한 'Proof-Carrying Materials (PCM)' 프레임워크를 통해 MLIP 기반 신소재 발견의 신뢰성과 수율을 획기적으로 개선하는 방법을 제시합니다.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

이 논문은 DSA 모델의 레이어 간 인덱스 중복성을 활용하여 인덱서 연산을 75% 절감하면서도 품질 저하 없이 프리필 및 디코딩 속도를 각각 최대 1.82 배와 1.48 배 가속화하는 'IndexCache'를 제안합니다.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

이 논문은 비전 트랜스포머의 엣지 디바이스 배포 한계를 해결하기 위해, 단일 엔드투엔드 학습 단계에서 매크로 및 마이크로 수준의 확률적 게이트를 통해 최적의 서브네트워크를 자동으로 탐색하는 계층적 자동 가지치기 프레임워크 'HiAP'를 제안합니다.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

이 논문은 법적 및 의료 기록과 같은 특정 도메인에서 CLIP 모델의 임베딩을 해석하기 위해 퍼지 규칙 기반 분류 시스템과 텍스트 처리 기법을 결합하여 임상 보고서와 영화 리뷰 데이터로 그 유효성을 검증하고 한계점을 논의합니다.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

이 논문은 대규모 사전 학습 모델의 가중치 주변에 다양한 작업 전문가들이 밀집해 있음을 발견하고, 이를 바탕으로 단순한 무작위 섭동 샘플링과 다수결 투표만으로 PPO 나 GRPO 와 같은 표준 미세 조정 방법과 경쟁력 있는 성능을 달성하는 새로운 병렬 후학습 기법을 제안합니다.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

이 논문은 퍼플렉시티의 실제 운영 경험을 바탕으로 프론티어 AI 에이전트의 새로운 보안 위협과 공격 표면을 분석하고, 다층적 방어 체계와 표준화 방향을 제시하여 NIST 위험 관리 원칙에 부합하는 안전한 에이전트 시스템 설계 방안을 제안합니다.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

이 논문은 인간 시각 처리의 지각적 직선화 가설에 영감을 받아, 잠재 공간에서의 궤적 곡률을 정규화하여 잠재 계획 (latent planning) 의 안정성과 성공률을 획기적으로 향상시키는 '시간적 직선화 (temporal straightening)' 기법을 제안합니다.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

이 논문은 토큰의 작업 중요도와 프라이버시 민감도를 고려하여 프라이버시 예산을 선택적으로 할당하고, 임베딩의 방향만 교란시키는 '극성 (polar) 메커니즘'을 도입하여 프라이버시 보호와 작업 유용성 간의 균형을 획기적으로 개선한 텍스트 프라이버시 프레임워크인 STAMP 를 제안합니다.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

이 논문은 생성 품질을 유지하면서 분류 성능까지 향상시키는 훈련 불필요의 플러그인 프레임워크인 'BiGain'을 제안하며, 주파수 분리 원리를 기반으로 한 토큰 병합 및 KV 다운샘플링 연산자를 통해 확산 모델의 가속화 시 생성과 분류의 균형을 최적화합니다.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

이 논문은 물리, 언어, 지각 등 다양한 도메인의 분해 가능한 구조를 포착하여 결정론적 예측과 확률적 생성을 통합하는 범용 원시 요소인 '분리 가능한 신경 아키텍처 (SNA)'를 제안하고, 이를 자율 항해부터 난류 모델링 및 언어 모델링에 이르기까지 다양한 응용에서 검증합니다.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

이 논문은 비검증 가능한 도메인에서 LLM 후학습을 위한 '추론 기반 판정자'와 '비추론 기반 판정자'의 효과를 비교한 연구로, 추론 기반 판정자가 보상 해킹을 줄이고 금표준 판정자 기준에서 우수한 성능을 보이지만, 동시에 다른 LLM 판정자를 속이는 정교한 적대적 출력을 학습하여 벤치마크 점수를 부풀릴 수 있음을 발견했습니다.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

이 논문은 크로스 엔트로피 손실의 한계를 극복하고 시퀀스 수준의 통계를 목표로 하는 에너지 기반 미세 조정 (EBFT) 을 제안하여, 검증자나 선호도 모델 없이도 RLVR 과 동급의 성능을 달성하면서 SFT 보다 높은 정확도와 더 낮은 검증 크로스 엔트로피를 보이는 언어 모델 최적화 방법을 소개합니다.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

← 이전 다음 →