cs.LG 편의 논문 | Gist.Science

Partial Policy Gradients for RL in LLMs

이 논문은 미래 보상의 부분 집합을 최적화하여 더 정확한 기울기 추정을 가능하게 하는 '부분 정책 경사 (Partial Policy Gradients)' 방법을 제안하고, 이를 다양한 대화 정렬 문제에서 다양한 정책 클래스 (전체 계획, 탐욕적, K-스텝 룩어헤드 등) 의 성능 비교를 통해 검증합니다.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

이 논문은 뇌과학에서 영감을 받은 확률적 잠재 변수 모델인 예측 코딩 그래프 (PCG) 가 다층 퍼셉트론을 포함하는 수학적 초집합임을 증명하여, 예측 코딩 네트워크를 현대 기계학습의 맥락에 더 강력하게 위치시키고 신경망 위상학 연구의 중요성을 재확인합니다.

Björn van Zwol2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

이 논문은 입력 상태에 공간적 일관성을 가진 노이즈 (예: Perlin 노이즈) 를 가하는 앙상블 학습 전략을 통해 추가적인 학습 비용 없이 해상도 표면 온도 확률 예보의 보정 성능을 향상시키는 그래프 신경망 (GNN) 기반 방법을 제안하고 그 유효성을 입증합니다.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

이 논문은 다양한 K 값의 벡터 검색 쿼리에 대해 높은 정확도와 성능을 유지하면서도 전처리 비용을 크게 절감하는 새로운 학습 기반 검색 방법인 OMEGA 를 제안합니다.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

이 논문은 인공 알파벳의 레이블된 데이터를 기반으로 한 대비 학습으로 교사를 훈련한 후, 역사적 문자 체계에 대한 비지도 지식 증류를 적용하여 지도 학습과 비지도 발견을 연결하는 2 단계 프레임워크를 제안하여, 진화적 관계에 대한 정답이 없어도 글자 인식과 문자 군집화를 효과적으로 수행할 수 있음을 보여줍니다.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Random Quadratic Form on a Sphere: Synchronization by Common Noise

이 논문은 자기-어텐션 메커니즘 없이도 토큰이 군집화되는 심층 트랜스포머의 행동을 설명하기 위해 무작위 이차 형식 (RQF) 모델을 도입하고, 공통 잡음에 의한 동기화 현상을 분포 및 경로적 관점에서 분석합니다.

Maximilian Engel, Anna Shalova2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

이 논문은 보행 중 발 높이 (foot clearance) 시계열 데이터에 위상 데이터 분석 (TDA) 을 적용하여 생성된 위상 기술자가 파킨슨병과 혈관성 파킨슨증의 감별 진단 정확도를 향상시킨다는 것을 입증했습니다.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

이 논문은 척수 손상 환자의 건강 모니터링을 위해 웨어러블 센서 데이터를 기반으로 중앙 집중식 XGBoost 와 동등한 성능을 내면서도 구조적 이점을 유지하는 새로운 분산 머신러닝 프로토콜 FedSCS-XGB 를 제안하고 이론적 수렴성과 실증적 유효성을 입증합니다.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

이 논문은 여러 작업 간 특이 공간의 방향적 일관성을 유지하기 위해 작업 벡터의 에너지 분포를 균형화하고 공유 직교 부분 공간에 정렬하는 'DC-Merge' 방법을 제안하여 모델 병합 성능을 획기적으로 개선합니다.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

이 논문은 소프트맥스 기반 모델의 경사 흐름이 다양한 손실 함수에 걸쳐 저엔트로피 해를 향해 출력을 극화시키는 보편적 메커니즘을 규명함으로써, 어텐션 싱크와 같은 트랜스포머의 실증적 현상에 대한 이론적 근거를 제시합니다.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

이 논문은 고차원 상관 데이터의 다중공선성 문제를 해결하기 위해 단일 모수 주성분 회귀와 $L_1$ 정규화를 통합하여 변수 선택과 계수 추정의 안정성을 동시에 확보하는 새로운 적응형 페널티 추정 방법인 SPPCSO 를 제안하고 그 유효성을 이론적 및 실증적으로 입증합니다.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

이 논문은 에이전트 행동의 정밀한 진단과 최적 정책의 기준을 제공하여 강화학습 평가를 경험적 벤치마킹에서 엄격한 과학적 분석으로 전환할 수 있도록 돕는 '합성 모니터링 환경 (SMEs)'이라는 무한한 연속 제어 작업 세트를 제안합니다.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG

Robust support vector model based on bounded asymmetric elastic net loss for binary classification

이 논문은 잡음 데이터에 강인하고 기하학적 비합리성을 해결하며 일반화 능력을 보장하는 새로운 경계 비대칭 탄성 넷 손실 함수를 기반으로 한 BAEN-SVM 모델을 제안하고, 그 이론적 성질을 증명하며 비볼록 최적화 문제를 효율적으로 해결하는 알고리즘을 개발하여 실험을 통해 기존 SVM 보다 우수한 성능을 입증했습니다.

Haiyan Du, Hu Yang2026-03-09🤖 cs.LG

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

이 논문은 이산 및 연속 변수를 효율적으로 분리하고 조율하는 학습 기반 2 단계 프레임워크인 DeCoST 를 제안하여, 시간 창과 가변 수익이 포함된 오리엔티어링 문제 (OPTWVP) 의 해법 품질과 계산 효율성을 기존 최첨단 알고리즘보다 크게 향상시켰음을 보여줍니다.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

이 논문은 방사선학 질문 응답에서 에이전트 기반 검색 증강 추론이 다양한 모델 간 의사결정 분산을 줄이고 합의 강도를 높여 집단적 신뢰성을 향상시킨다고 밝히며, 단순 정확도나 합의도만으로는 시스템의 신뢰성을 완전히 평가할 수 없음을 시사합니다.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

← 이전 다음 →

cs.LG