cs.LG 편의 논문 | Gist.Science

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

이 논문은 대규모 언어 모델이 기존 코드 생성 벤치마크에서 높은 점수를 얻는 것이 단순 암기에 불과할 수 있음을 지적하며, 데이터 오염 가능성이 낮은 에소테릭 프로그래밍 언어를 활용한 'EsoLang-Bench'를 통해 모델들의 진정한 추론 능력을 평가했을 때 기존 벤치마크 점수와 극명하게 대비되는 낮은 성능을 확인했다고 요약할 수 있습니다.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

이 논문은 저랭크 분해 기반 파라미터 효율적 미세 조정 (PEFT) 에서 순차 학습 시 발생하는 catastrophic forgetting(과거 지식 망각) 이 업데이트 서브스페이스의 기하학적 구조와 파라미터화 방식에 크게 의존하며, 텐서 기반 분해나 구조적으로 정렬된 파라미터화 방법이 기존 방법보다 망각을 효과적으로 완화할 수 있음을 실증적으로 규명합니다.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

이 논문은 RLHF 의 비용 문제를 해결하기 위해 불확실성 추정과 새로운 샘플링 기법을 활용한 'ActiveUltraFeedback'이라는 능동 학습 파이프라인을 제안하며, 기존 방법보다 적은 양의 주석 데이터로도 동등하거나 더 우수한 성능을 달성함을 보여줍니다.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

이 논문은 물리 법칙의 잔차를 손실 함수에 통합하여 기존 푸리에 신경 연산자 (FNO) 보다 정확도, 일반화 능력, 장기 안정성이 뛰어난 물리 정보 기반 신경 연산자 (PF-PINO) 를 개발하고, 이를 전기화학적 부식 및 결정 고형화 등 다양한 위상장 모델링 문제에 적용하여 검증한 연구입니다.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

이 논문은 Muon 최적화기의 등방성 가정이 비등방적인 곡률 스펙트럼을 가진 심층 신경망에 부적합하다는 점을 지적하고, Shampoo 의 구조적 추정치를 활용한 화이트닝 좌표계에서 편광 분해를 통해 등방성 제약과 기하학적 적응성을 조화시킨 새로운 최적화 알고리즘 'Mousse'를 제안하여 160M~800M 파라미터 규모의 언어 모델에서 학습 단계를 약 12% 단축하고 성능을 향상시켰음을 보여줍니다.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

이 논문은 AI-RAN 기반의 다중 액세스 엣지 컴퓨팅 시스템에서 비독립 동일 분포 (non-IID) 데이터 문제를 해결하고 정보 손실을 최소화하기 위해 자기 지식 증류, 조건부 계층적 응집 클러스터링을 활용한 다중 프로토타입 전략, 그리고 새로운 LEMGP 손실 함수를 통합한 'MP-FedKD' 접근법을 제안하고 그 우수성을 입증합니다.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

본 논문은 2 차 상미분방정식과 다층 퍼셉트론 (MLP) 으로 구성된 신경 진동자의 PAC 일반화 상한을 유도하여 MLP 의 크기와 시간 길이에 따른 오차 증가가 다항식적으로 제한되며, MLP 의 리프시츠 상수를 규제함으로써 일반화 성능을 향상시킬 수 있음을 이론적으로 증명하고 수치 실험을 통해 검증했습니다.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

이 논문은 적분 조건 하에서 조각별 선형 경로의 시그니처 선형 범함수가 $L^p$ 및 가중 노름에 대해 조밀하다는 전역 보편 근사 정리를 증명하고, 이를 브라운 운동 기반의 경로 의존적 범함수 및 확률 미분방정식의 근사에 적용합니다.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

이 논문은 기존 설명 가능한 인공지능 (XAI) 방법이 간과해 온 '개념의 부재'가 뉴런 활성화에 미치는 영향을 규명하고, 이를 탐지하기 위한 새로운 기법을 제안하여 모델 해석과 편향 제거를 개선하는 방법을 제시합니다.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

본 논문은 고전 신경망 (LSTM) 과 양자 회로 Born 머신을 결합한 하이브리드 양자 - 고전 프레임워크를 제안하여 주가 변동성 예측의 정확도를 기존 고전 모델보다 크게 향상시켰음을 실증합니다.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

이 논문은 라벨 인식 채널 중요도 점수 (LCIS) 를 기반으로 덜 중요한 채널을 적응적으로 제거하여 분할 학습의 통신 오버헤드를 줄이면서도 테스트 정확도를 향상시키는 'ACP-SL' 방식을 제안합니다.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

Information Theoretic Bayesian Optimization over the Probability Simplex

이 논문은 확률 심플렉스의 기하학적 구조를 반영하는 정보 기하학 기반의 새로운 베이지안 최적화 알고리즘인 $\alpha$ -GaBO 를 제안하여, 기존 유클리드 공간 기반 방법들보다 다양한 실세계 응용 분야에서 우수한 성능을 입증합니다.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

이 논문은 정답만 고려하는 기존 강화학습의 한계를 극복하기 위해, 모델의 컨텍스트 학습 능력을 활용해 추론의 질을 측정하는 '증거 이득 (Evidence Gain)'을 도입하고 이를 통해 고품질 추론 궤적에 가중치를 부여하는 '인-컨텍스트 RLVR'을 제안하여 수학 벤치마크에서 정확도와 추론 품질을 모두 향상시켰음을 보여줍니다.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

이 논문은 다중 격자 (MG) 패러다임에서 영감을 받아 기존 트랜스포머 모델의 핵심 구조를 변경하지 않고 노이즈 민감도를 줄이고 학습 안정성을 향상시키는 경량 '가상 프로젝터 (pseudo-projector)' 모듈을 제안하고, 텍스트 분류 및 합성 벤치마크를 통해 그 유효성을 입증했습니다.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

이 논문은 제조 시스템의 이질적 데이터 소스를 효과적으로 활용하기 위해 다중 태스크 학습과 다중 정밀도 모델링을 통합한 계층적 가우시안 프로세스 기반 대리 모델링 프레임워크를 제안하고, 기존 방법 대비 예측 정확도를 크게 향상시키는 것을 입증합니다.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

이 논문은 지리 공간 데이터를 활용하여 복잡한 공간 수요 패턴과 공간 자기상관 문제를 해결하고 기존 모델 대비 21% 높은 예측 정확도를 달성한 계층적 해상도 그래프 어텐션 네트워크 (HR-GAT) 를 제안합니다.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

이 논문은 기존 PEFT 방법들이 간과한 데이터와 레이어 간의 상호작용을 고려하여, 각 레이어별로 가장 영향력 있는 데이터 포인트를 적응적으로 선택하는 통합 최적화 전략인 GAST(Gradient-aligned Sparse Tuning) 를 제안하고 이를 통해 기존 베이스라인보다 우수한 성능을 입증했습니다.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

이 논문은 희소한 에디 공변량 관측 데이터의 한계를 극복하고 다양한 기후 및 식생 유형을 가진 미관측 지역으로의 탄소 플럭스 일반화 성능을 체계적으로 평가하기 위해, 전 세계 567 개 사이트의 데이터를 기반으로 한 제로샷 공간 전이 학습용 벤치마크 'CarbonBench'를 최초로 제안합니다.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

이 논문은 연속적인 LLM 파인튜닝 중 발생하는 catastrophic forgetting 을 완화하면서도 빠른 적응을 유지하기 위해, 샘플 수준의 기억 강도를 추정하고 적응형 간격으로 재연습을 스케줄링하는 메모리 인식 적응형 재연습 프레임워크인 MSSR 을 제안하고 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 입증합니다.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

이 논문은 Lipschitz 상수나 경계 조건 없이도 노이즈가 없는 환경에서 거의 최적의 수렴 속도를 보장하는 새로운 적응형 지수 이동 평균 최적화 알고리즘인 OptEMA 를 제안하고 그 이론적 수렴성을 증명합니다.

Ganzhao Yuan2026-03-11🤖 cs.LG

← 이전 다음 →