Learning Quadruped Walking from Seconds of Demonstration

이 논문은 사족 보행의 한계 주기 및 포인카레 반환 맵 구조에 기반한 원리 분석을 통해, 시뮬레이션 없이 오프라인으로 단 몇 초의 시연 데이터만으로도 견고한 보행 정책을 학습할 수 있는 새로운 모방 학습 방법을 제안하고 하드웨어 실험을 통해 그 유효성을 입증합니다.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

이 논문은 센서 고장으로 인한 데이터 중독 문제를 해결하기 위해 SISA 아키텍처를 기반으로 한 머신 언러닝 프레임워크를 제안하여, 변압기 권선 간 단락 고장 국소화 시 전체 모델 재학습 없이 손상된 데이터 조각만 재학습함으로써 재학습 시간을 획기적으로 단축하면서도 재학습과 동등한 진단 정확도를 달성함을 보여줍니다.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

이 논문은 지속성 호몰로지를 활용한 위상 인식 강화학습 프레임워크를 제안하여 극한 기상 및 사이버 공격 상황에서의 전력 배전망 재구성 및 부하 차단 최적화를 통해 에너지 공급량 증대와 전압 위반 감소를 달성하고 회복탄력성을 강화함을 보여줍니다.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

이 논문은 조건부 생성 모델링에서 이상치에 민감한 기존 조건부 최적 수송 (COT) 의 한계를 해결하기 위해 조건부 마진을 엄격히 유지하면서 조건부 분포 매칭 제약을 완화하는 '조건부 불균형 최적 수송 (CUOT)' 프레임워크와 이를 기반으로 한 이상치 강건한 생성 모델 (CUOTM) 을 제안합니다.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

이 논문은 일반합 게임 환경에서 근사 나시 균형을 계산하기 위해 플레이어 독립적인 잠재 함수를 학습하여 협력적 게임의 균형을 원본 게임의 균형으로 근사시키는 새로운 MARL 파이프라인인 NePPO(Near-Potential Policy Optimization) 를 제안하고, 이를 통해 기존 기법들보다 우수한 성능을 입증합니다.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

이 논문은 역확산 샘플링을 선형 가용 마르코프 의사결정 과정 (LS-MDP) 의 상태 기반 확률적 제어 문제로 재해석하는 'DiffCon' 프레임워크를 제안하여, f-발산 정규화를 통한 강화학습 미세조정과 프리트레인된 백본을 고정하는 경량 사이드 네트워크 파라미터화를 통해 생성 품질과 효율성을 동시에 향상시킵니다.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

이 논문은 무작위 대조 시험의 치료 효과를 시간적 맥락에 따라 외삽하는 'TEA-Time' 프레임워크를 제안하며, 시간적 효과의 분리 가정을 기반으로 TATE 를 식별하고 이중 강건 추정기를 개발하여 Upworthy 연구 아카이브 데이터를 통해 편향과 분산 간의 트레이드오프를 실증합니다.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

이 논문은 복잡한 특징 공학과 그래프 기반 아키텍처에 의존하지 않고, 4 가지 핵심 상태와 변형된 트랜스포머를 활용한 경량화 DRL 프레임워크인 'ReSched'를 제안하여 유연 작업장 스케줄링 문제 (FJSP) 에서 기존 최첨단 방법보다 우수한 성능과 일반화 능력을 입증했습니다.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

이 논문은 클라이언트의 컴퓨팅 자원 차이를 고려하여 강력한 클라이언트는 경량화된 DP 페더러티드 파인튜닝을, 약한 클라이언트는 경량 DP 투표 메커니즘을 통해 참여하게 함으로써, 사생활 보호와 통신 효율성을 유지하면서 다양한 하위 작업에 재사용 가능한 고품질 합성 텍스트 데이터를 생성하는 적응형 페더러티드 텍스트 생성 프레임워크를 제안합니다.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

이 논문은 고엔트로피 상태의 교사 모델 예측 시 역 KL 발산을 보완하기 위해 순 KL 발산을 결합한 '엔트로피 인식 온-정책 증류 (Entropy-Aware On-Policy Distillation)'를 제안하여, 생성 다양성을 유지하면서 수학 추론 성능을 크게 향상시켰음을 보여줍니다.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

VLN-Cache 는 기존 토큰 캐싱 방식이 가정한 정적 환경과 달리 시점 이동 및 작업 단계에 따른 의미 변화로 인한 실패를 해결하기 위해, 시계열 정렬 매핑과 작업 관련성 필터링을 도입하여 VLN 모델의 추론 속도를 1.52 배까지 향상시키면서도 항해 성공률을 유지하는 프레임워크를 제안합니다.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG