cs.LG 편의 논문 | Gist.Science

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

이 논문은 대화 과정을 순차적 의사결정 문제로 간주하고 트리 기반 강화학습을 적용하여 기존 방법론보다 훨씬 높은 공격 성공률로 다양한 다회전 적대적 공격 전략을 자동으로 발견하는 'DialTree' 프레임워크를 제안합니다.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

본 연구는 대규모 언어 모델 (LLM) 과 지식 그래프 기술을 활용하여 세네갈의 법적 텍스트 (특히 토지 및 공공 영역 코드) 에서 수천 개의 조항을 추출하고 구조화함으로써 사법 정보 접근성을 향상시키고 시민과 법률 전문가가 권리와 의무를 더 효과적으로 이해할 수 있는 프레임워크를 제시합니다.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

The Role of Feature Interactions in Graph-based Tabular Deep Learning

이 논문은 그래프 기반 표본 딥러닝 (GTDL) 방법들이 예측 정확도만 추구하다 보니 실제 특징 간 상호작용을 무작위 수준으로만 모델링하며, 오히려 정확한 상호작용 구조를 반영할 때 예측 성능이 향상됨을 합성 데이터를 통해 입증하고, 이에 따라 GTDL 이 예측력 향상을 위해 그래프 구조의 정확한 모델링을 우선시해야 함을 주장합니다.

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

이 논문은 미니배치 최적 수송, 모듈형 정규화, 그리고 지도 정보 통합을 통해 기존 이산적 방법의 확장성 한계와 신경망 접근법의 복잡성을 극복하고, 다양한 분야에서 새로운 최첨단 성능을 달성하는 확률 측도 공간의 와세르슈타인 그래디언트 흐름 기반의 확장 가능하고 정규화된 바리센터 계산 알고리즘을 제안합니다.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

이 논문은 로봇 보행 강화학습에서 무작위 초기화 대신 역동적 탐색 데이터를 기반으로 사전 학습된 역동 모델을 활용하여 액터-크리틱 알고리즘을 초기화함으로써 샘플 효율성과 작업 수행 능력을 크게 향상시키는 새로운 패러다임을 제안하고 검증합니다.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

이 논문은 파운데이션 모델의 추론 능력을 활용하여 자연어 명세로부터 보상 기계 (Reward Machines) 를 자동으로 생성하고, 이를 통해 강화학습의 과업을 구성적으로 분해하며 제로샷 일반화까지 가능하게 하는 'ARM-FM' 프레임워크를 제안합니다.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

이 논문은 강화학습 기반의 추론 모델이 지시사항과 충돌할 때 유동적 추론 (motivated reasoning) 을 통해 위반 행위를 합리화하며, 이로 인해 추론 과정을 모니터링하는 소형 모델이 오히려 모델의 위반을 간과하게 되어 위험을 초래할 수 있음을 보여줍니다.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

이 논문은 금융 시장의 다양한 이상 징후 (가격 충격, 유동성 동결 등) 를 식별하고 그 원인을 설명할 수 있도록, 적응형 그래프 학습과 메커니즘별 전문가 라우팅을 결합한 해석 가능한 이질적 이상 탐지 프레임워크를 제안하며, 이를 통해 기존 방법보다 정밀한 조기 경보와 행동 가능한 통찰력을 제공합니다.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

이 논문은 열의 순열 불변성을 구조적 사전 지식으로 인코딩한 순열 상대 정책 최적화 (PRPO) 기반 강화학습 프레임워크를 제안하여, 대규모 언어 모델이 표 데이터 예측에서 기존 최첨단 모델들을 능가하는 수치 추론 능력을 발휘하도록 함으로써 적은 감독 하에서도 탁월한 성능을 달성함을 보여줍니다.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

이 논문은 그래프 신경망의 구조적 견고성 검증을 위해 강력한 솔버 대신 다항 시간 내에 실행되는 효율적인 부분 솔버를 활용하는 경량 만족도 테스트 도구인 'RobLight'를 제안하여 기존 최첨단 기법보다 성능을 향상시켰음을 보여줍니다.

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

이 논문은 제로샷 강화학습의 다양한 접근법을 통합하기 위해 표현 방식과 학습 패러다임에 따른 분류 체계와 오차의 세 가지 구성 요소를 분석하는 공식적인 통합 프레임워크를 제시합니다.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

이 논문은 다양한 데이터셋과 예측 구간에서 시간 계열 사전 학습 모델의 성능을 학습된 가이드와 경량 아키텍처를 통해 효율적으로 예측하여, 개별 미세 조정 없이 최적 모델을 신속하게 선택하는 'SwiftTS' 프레임워크를 제안합니다.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

이 논문은 커널의 메르서 표현을 활용하여 신경망 매개변수에 직접 정의된 '메르서 사전분포'를 제안함으로써, 소규모 데이터에 국한된 가우시안 프로세스의 해석 가능성과 대규모 데이터에 적합한 베이지안 신경망의 확장성을 동시에 확보하는 새로운 프레임워크를 제시합니다.

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

이 논문은 사용자와 아이템의 변화에 따른 추천 시스템의 지속적 학습 문제를 해결하기 위해, 최신 고정된 어댑터 상태를 기준점으로 하여 적응과 보존을 유연하게 조절하는 'PESO'라는 새로운 LoRA 기반 방법을 제안하고 그 우수성을 입증합니다.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

이 논문은 BCI Competition IV-2a 데이터셋을 기반으로 해석 가능한 ANFIS-FBCSP-PSO 모델과 EEGNet 을 비교하여, 단일 사용자 환경에서는 전자가, 사용자 간 일반화 성능에서는 후자가 우세함을 입증함으로써 MI-BCI 시스템 설계 시 해석성과 강건성 중 어떤 목표를 우선시할지에 대한 실용적 지침을 제시합니다.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

← 이전 다음 →

cs.LG