cs.LG 편의 논문 | Gist.Science

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

이 논문은 희소 활성화와 공유 전문가를 결합한 요소별 라우팅 기반의 비선형 전문가 혼합 (MoE) 아키텍처를 제안하여 분자 간 상호작용 모델링의 정확도를 획기적으로 향상시키고, 주기율표 경향에 부합하는 화학적으로 해석 가능한 전문가 전문화를 입증했습니다.

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

이 논문은 법률, 금융, 산업, 의료, 자연과학 등 5 개 전문 분야의 400 개 전문가 큐레이션 과제를 포함하여 기존 벤치마크의 한계를 넘어 언어 에이전트의 실제 전문성, 추론 과정, 그리고 경제적 중요성이 있는 시나리오에서의 신뢰성을 종합적으로 평가하기 위한 새로운 벤치마크인 '$OneMillion-Bench'를 소개합니다.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

MJ1: Multimodal Judgment via Grounded Verification

이 논문은 시각적 근거를 강제하는 구조화된 검증 체인과 반사실적 일관성 보상을 통해 강화학습으로 훈련된 3B 파라미터 규모의 다중모달 판정 모델 'MJ1'이 훨씬 더 큰 모델들을 능가하는 성능을 달성했음을 보여줍니다.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker 는 GRPO 기반의 점진적 CoT 길이 보정 기법을 통해 복잡한 문제의 난이도와 응답 분포에 따라 최적의 추론 길이를 동적으로 조정함으로써, 대형 언어 모델의 과도한 추론을 줄이면서도 정확도를 향상시킵니다.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

이 논문은 최대 내적 검색 (MIPS) 문제를 학습 기반 접근법인 'Amortized MIPS'로 해결하여, 쿼리 분포에 맞춰 신경망을 훈련함으로써 검색 비용을 상쇄하고 데이터베이스를 압축할 수 있음을 제안합니다.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

이 논문은 LoRA 모듈의 독립적 평균화로 인한 노이즈와 구조적 표현력 저하 문제를 해결하기 위해, 수학적으로 정확한 집계 후 SVD 를 적용하여 학습 모멘텀을 보존하는 새로운 연방 미세조정 프레임워크인 'FedMomentum'을 제안하고, 이를 통해 수렴 속도와 최종 정확도를 기존 최첨단 방법보다 향상시켰음을 보여줍니다.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

이 논문은 모델 크기와 데이터 혼합 간의 비선형 상호작용을 고려한 'CAMEL'이라는 용량 인식 혼합 법칙을 제안하여, 대규모 언어 모델의 데이터 혼합 최적화 비용을 50% 절감하고 하류 작업 성능을 최대 3% 향상시키는 효율적인 파이프라인을 제시합니다.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

이 논문은 시계열 예측에서 외생 변수와 내생 변수 간의 시공간 상관관계를 노이즈에 강건하게 모델링하기 위해 변이형 생성기, 그래프 구조 정렬기, 그래프 정제기로 구성된 GCGNet 을 제안하고, 12 개의 실제 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

이 논문은 대규모 언어 모델의 선호도 정렬을 위해 해석 가능성과 데이터 효율성을 동시에 개선하기 위해, 선호 쌍의 다차원 대비 분석을 통해 고품질 평가 기준을 생성하고 이를 기반으로 편향을 완화하며 최첨단 성능을 달성하는 'CDRRM' 프레임워크를 제안합니다.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

이 논문은 연동 학습 환경에서 고랭크 LoRA 적응 시 발생하는 집계 오차와 그라디언트 붕괴 문제를 해결하기 위해, 클라이언트 수와 랭크 간의 상호작용을 이론적으로 분석하여 최적의 스케일링 인자를 도입한 'Stabilized Federated LoRA (SFed-LoRA)' 프레임워크를 제안합니다.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

이 논문은 이질적인 RNA 시퀀싱 데이터셋 간의 전이 학습을 위해 적대적 도메인 적응을 기반으로 한 딥러닝 프레임워크를 제안하여, 데이터가 부족한 상황에서도 암 및 조직 유형 분류의 정확도를 향상시킨다는 점을 보여줍니다.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

이 논문은 확률적 요소를 제거하고 결정론적 부드러운 대상을 직접 최적화하여 훈련 - 테스트 불일치를 줄이고 수렴 속도를 높이며 대규모 언어 모델의 구조적 가지치기 성능을 향상시킨 '결정론적 미분 가능 가지치기 (DDP)' 방법을 제안합니다.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

이 논문은 GRU 인코더와 변분 양자 회로 (VQC) 를 결합한 하이브리드 양자 - 고전 신경망 아키텍처를 제안하여 생리학적 시계열 데이터의 다변량 다시간 구간 예측 성능과 잡음 내성을 향상시켰음을 보여줍니다.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

이 논문은 기존 트랜스포머를 점진적으로 변형하여 계산 자원을 동일하게 맞춘 실험을 통해, ARC-AGI 에서 성과를 보인 '작은 재귀적 모델 (TRM)' 메커니즘을 자기회귀 모델에 적용했을 때 오히려 신뢰할 수 있는 성능 향상이 나타나지 않았음을 규명하고, 이는 2 단계 정제 메커니즘 자체에는 잠재력이 있으나 '자기회귀 TRM'이라는 특정 아키텍처에 대한 연구 투자는 신중해야 함을 시사합니다.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

이 논문은 Ascend NPU 환경에서 Pangu 모델을 기반으로 EAGLE-3 스타일의 트리 구조 예측 디코딩을 이식하여, 캐시 관리 및 텐서화 최적화를 통해 추론 처리량을 평균 1.27 배, 최대 2.46 배까지 향상시킨 'EAGLE-Pangu' 시스템을 제안합니다.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

이 논문은 생물학적 추론에서 전문가 검증이 불가능한 노이즈가 많은 약한 지도 데이터를 활용하여 신뢰할 수 있는 프로세스 보상 모델 (PRM) 을 훈련하기 위해 자기 일관성과 이웃 일관성 메트릭을 결합한 '이중 합의 약강 (DC-W2S)' 프레임워크를 제안합니다.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

이 논문은 스테가노그래피 기법을 활용하여 LLM 의 안전성 정렬을 우회하는 보이지 않는 위협을 제시하며, GPT-4.1 을 포함한 다양한 모델에서 악성 콘텐츠가 숨겨진 채로 생성되더라도 안전성 필터가 이를 탐지하지 못함을 입증했습니다.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

이 논문은 알츠하이머병 등 타우병증의 병리적 타우 확산을 연구하는 데 필요한 복잡한 미시적 생리학적 모델 (NTM) 의 시뮬레이션 속도를 획기적으로 단축하고 매개변수 추론을 가능하게 하기 위해, 뇌 구조 연결성을 반영한 신경 연산자 기반의 고효율 대리 모델인 'Tau-BNO'를 제안하고 그 뛰어난 예측 정확도와 성능을 입증했습니다.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

이 논문은 RAMBO 의 과도한 보수성과 불안정한 업데이트 문제를 해결하기 위해, 가치 인식 모델 학습과 암시적 미분 적응 가중치를 도입한 새로운 오프라인 강화학습 알고리즘인 ROMI 를 제안하고 D4RL 및 NeoRL 데이터셋에서 기존 방법들을 능가하는 성능을 입증합니다.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

이 논문은 뇌의 대뇌, 교뇌, 소뇌 구조에서 영감을 받아 고정된 고수준 지각과 실시간 운동 제어 모듈을 분리함으로써 계산 효율성과 재현성을 높이고 로봇 제어 성공률을 극대화하는 새로운 비전 - 언어 - 행동 (VLA) 아키텍처인 SaiVLA-0 를 제안합니다.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

← 이전 다음 →