cs.LG 편의 논문 | Gist.Science

Pareto-Optimal Anytime Algorithms via Bayesian Racing

이 논문은 알고리즘의 최적값이나 경계 없이도 시간별 성능 순위 기반의 베이지안 레이싱을 통해 파레토 최적 알고리즘 집합을 효율적으로 식별하고 불확실성을 정량화하는 'PolarBear' 프레임워크를 제안합니다.

Jonathan Wurth, Helena Stegherr, Neele Kemper, Michael Heider, Jörg Hähner2026-03-10🤖 cs.LG

Efficient Credal Prediction through Decalibration

이 논문은 기존에 복잡한 모델에 적용하기 어려웠던 신념 집합 (credal sets) 기반의 불확실성 추정을, 앙상블 학습 없이도 효율적으로 수행할 수 있는 '탈교정 (decalibration)' 기법을 통해 가능하게 함으로써 안전-중요 분야에서 신뢰할 수 있는 불확실성 표현을 실현합니다.

Paul Hofman, Timo Löhr, Maximilian Muschalik, Yusuf Sale, Eyke Hüllermeier2026-03-10🤖 cs.LG

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

이 논문은 단일 뷰 심초음파의 한계를 극복하고 다중 뷰 심초음파의 형태학적 정보를 활용하여 심전도 (ECG) 표현을 강화하는 'Echo2ECG'라는 다중 모달 자기지도 학습 프레임워크를 제안하며, 이를 통해 구조적 심장 표현형 분류 및 심초음파 검색 과제에서 기존 최첨단 모델보다 뛰어난 성능을 입증했습니다.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

이 논문은 체스 환경에서 정책 모델과 블러드 예측 모델을 결합한 '오라클 가이드 소프트 실드 (OGSS)' 프레임워크를 제안하여, 탐색 비율을 높임에도 불구하고 전술적 실수를 줄이면서 안전하고 경쟁력 있는 수를 예측할 수 있음을 보여줍니다.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

이 논문은 다목적 강화학습의 오목 스칼라화 문제에서 발생하는 편향 장벽을 해결하기 위해 다단계 몬테카를로 추정기를 활용한 자연 정책 경계 알고리즘을 제안함으로써, $\epsilon$ -최적 정책을 계산하는 데 있어 최적의 $\widetilde{\mathcal{O}}(\epsilon^{-2})$ 샘플 복잡도 보장을 달성했습니다.

Swetha Ganesh, Vaneet Aggarwal2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

이 논문은 지도 학습 없이 그래프 정렬을 수행하는 기존 방법들의 정확도-효율성 한계를 극복하기 위해, 국소적 표현과 전역적 정렬의 불일치를 해결하는 새로운 '전역 표현 및 정렬' 패러다임을 제안하고, 이를 구현한 GlobAlign 및 효율성을 극대화한 GlobAlign-E 알고리즘을 통해 기존 최첨단 방법 대비 정확도를 20% 이상 향상시키고 OT 기반 방법의 계산 복잡도를 3 차에서 2 차로 낮추어 속도를 10 배 이상 개선했음을 보여줍니다.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

이 논문은 라벨이 없는 관찰 데이터만으로 객체 간 공출현 관계를 학습하는 'ProReFF' 모델을 제안하고, 이를 통해 로봇이 미지의 환경에서 인간 수준의 효율성으로 객체를 탐색할 수 있도록 하는 방법을 제시합니다.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

이 논문은 일관성 모델을 활용하여 물리적으로 일관된 장시간 상호작용을 실시간으로 시뮬레이션할 수 있는 '인터랙티브 월드 시뮬레이터'를 제안하며, 이를 통해 생성된 데이터로 학습된 로봇 정책이 실제 세계와 유사한 성능을 보임으로써 확장 가능한 로봇 데이터 생성 및 정책 평가의 신뢰할 수 있는 대안임을 입증합니다.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Generative Adversarial Regression (GAR): Learning Conditional Risk Scenarios

이 논문은 하류 위험 목표와 정렬된 생성기를 학습하여 다양한 정책 하에서 최악의 위험 편차를 식별하는 적대적 정책을 도입함으로써, VaR 및 ES 와 같은 조건부 위험 시나리오를 보다 정확하게 생성하는 '생성적 적대 회귀 (GAR)' 프레임워크를 제안합니다.

Saeed Asadi, Jonathan Yu-Meng Li2026-03-10🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

이 논문은 강화학습에서 상태 그래프의 대수적 연결성 (algebraic connectivity) 이 학습된 라플라시안 표현을 통한 가치 함수 근사 오차에 미치는 영향을 이론적으로 규명하고, 이를 일반 정책 하에서 검증하여 차원의 저주 문제를 해결하는 새로운 통찰을 제공합니다.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo Papini2026-03-10🤖 cs.LG

Trust via Reputation of Conviction

이 논문은 지식, 진리, 신뢰를 수학적 틀로 정립하여 '확신 (conviction)'을 신뢰의 핵심 기반으로 삼고, 이를 통해 AI 에이전트와 같은 오류 가능성이 있는 출처에 대한 신뢰를 구축하기 위한 평판 체계를 제안합니다.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

이 논문은 지연된 라벨링과 계산 제약 하에서 배포된 머신러닝 시스템의 분포 드리프트를 안전성 보장과 함께 실시간으로 감지하고 개입하는 'Drift2Act' 컨트롤러를 제안하여, 온라인 위험 증명서를 통해 안전 위반을 최소화하고 신속한 회복을 달성함을 보여줍니다.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

이 논문은 MLP 의 고정된 활성화 함수 한계와 기존 KAN 의 파라미터 폭증 문제를 해결하기 위해, 입력 변환과 출력 활성화를 독립적으로 제어하는 듀얼 스테이지 메커니즘을 도입하여 정확도와 효율성을 동시에 극대화한 'DualFlexKAN'을 제안합니다.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

이 논문은 리플레이 버퍼와 배치 업데이트 없이 순수 온라인 업데이트를 수행하여 제한된 하드웨어 환경과 Sim2Real 전이 등에 적합한 두 가지 새로운 스트리밍 딥 강화학습 알고리즘 (S2AC, SDAC) 을 제안하고, 배치 학습에서 스트리밍 학습으로의 전환 시 발생하는 실용적 문제를 해결하는 전략을 제시합니다.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

이 논문은 데이터 스트림에서 발생하는 개념 변화, 시간적 의존성, 그리고 catastrophic forgetting 문제를 해결하기 위해 재귀 신경망과 학습 가능한 마스크를 결합하여 과거 지식을 유지하면서 온라인으로 새로운 개념을 학습하는 'MAGIC Net'이라는 새로운 스트리밍 지속 학습 (SCL) 접근법을 제안합니다.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Integral Formulas for Vector Spherical Tensor Products

이 논문은 Xie 등이 제안한 벡터 구면 텐서 곱을 위한 적분 공식을 유도하여 반대칭 게안트 계수에 대한 명시적 폐쇄형 표현을 제시함으로써, SO(3)-공변 신경망에서의 텐서 곱 계산 효율성을 9 배 향상시키고 표현력과 실행 시간 간의 균형을 제어할 수 있는 방법을 논의합니다.

Valentin Heyraud, Zachary Weller-Davies, Jules Tilly2026-03-10🤖 cs.LG

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

이 논문은 LLM 에이전트가 제한된 컴퓨팅 자원 하에서 자율적으로 LLM 후속 학습을 수행할 수 있는 능력을 'PostTrainBench'를 통해 평가하고, 에이전트가 공식 모델보다 특정 시나리오에서는 뛰어난 성과를 보이지만 전반적으로는 뒤처지며 보상 해킹과 같은 위험한 실패 모드를 보인다는 사실을 규명합니다.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

이 논문은 단일 주체의 캡처 데이터만으로도 다양한 표정 일반화 능력을 향상시키기 위해, 학습 중 유사한 표정을 검색하여 증강하는 'RAF(Retrieval-Augmented Faces)' 기법을 제안하고 템플릿 없는 애니메이션 가능한 헤드 아바타의 표현 충실도를 크게 개선함을 보여줍니다.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

Grow, Don't Overwrite: Fine-tuning Without Forgetting

이 논문은 사전 학습된 모델의 파라미터를 복제하고 스케일링 보정을 적용하여 새로운 작업에 대한 적응과 기존 지식의 보존을 동시에 달성하는 '성장' 기반 미세 조정 방법을 제안하며, 이를 통해 완전한 미세 조정과 동등한 성능을 유지하면서도 catastrophic forgetting 을 방지하고 계산 비용을 절감할 수 있음을 입증합니다.

Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo2026-03-10🤖 cs.LG

Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy

이 논문은 훈련 데이터의 이질성을 정량화하는 고유한 분산 측도법을 제안하고, 이를 기반으로 데이터를 분할하여 각 블록별로 학습하는 '나누고 예측' 아키텍처가 테스트 정확도를 크게 향상시킬 수 있음을 증명합니다.

Fenix W. Huang, Henning S. Mortveit, Christian M. Reidys2026-03-10🤖 cs.LG

← 이전 다음 →