cs.LG 편의 논문 | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

이 논문은 오프라인 데이터의 풍부함과 온라인 학습의 적응력을 결합하면서도 데이터 품질과 포용성 문제를 해결하기 위해, 정책의 진화적 필요에 따라 오프라인 및 온라인 데이터를 동적으로 우선순위화하는 '신뢰도 인식형 능동 우위 정렬 (A3)' 샘플링 전략을 도입한 A3RL 알고리즘을 제안하고, 이를 통해 기존 방법들보다 우수한 성능을 입증합니다.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

이 논문은 시계열 데이터와 짝을 이루는 텍스트가 시계열의 주기적 특성을 반영한다는 통찰을 바탕으로, 기존 수치 기반 시계열 모델의 아키텍처를 변경하지 않고도 텍스트를 보조 변수로 활용하여 다중 모달 예측 성능을 향상시키는 'Texts as Time Series (TaTS)' 프레임워크를 제안합니다.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

이 논문은 LLM 의 하류 작업 성능 예측 정확도를 높이기 위해 작업 난이도 특성에 따라 클러스터링하는 COD 프레임워크를 제안하고, 이를 통해 예측 가능한 하위 집단의 성능을 전체 평가 세트로 외삽하여 70B 파라미터 모델에서 평균 1.55% 의 낮은 예측 오차를 달성했음을 보여줍니다.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

이 논문은 BraTS 데이터셋의 다중 MRI 시퀀스를 기반으로 UNet 을 활용한 2D 및 3D 분할 결과를 가중 평균으로 융합하고 사전 학습된 ResNet50 모델에 입력하여 뇌종양 아형 분류 정확도를 99.25% 로 극대화하는 새로운 기법을 제안합니다.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

이 논문은 제한된 유지 데이터만 접근 가능한 상황에서도 제거하려는 데이터와 유지 데이터 간의 간섭을 최소화하기 위해, 제거 데이터의 기울기를 유지 데이터의 기울기들에 수직인 부분공간으로 투영하는 새로운 기계 망각 기법인 OrthoGrad 를 제안하고 그 유효성을 입증합니다.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

이 논문은 웨어러블 센서와 식이 데이터를 활용하여 대형 언어 모델과 기계 학습을 결합한 'GlucoLens' 시스템을 개발함으로써 식후 고혈당을 예측하고 개인 맞춤형 행동 치료 경로를 제시하는 설명 가능한 솔루션을 제안합니다.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

이 논문은 비전 - 언어 모델을 활용하여 환경의 의미와 접촉 허용도를 분석하고, 이를 기반으로 접촉이 필요한 복잡한 환경에서도 안정적이고 효율적인 로봇 경로 계획을 가능하게 하는 'IMPACT' 프레임워크를 제안합니다.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

이 논문은 제한적이고 노이즈가 포함된 관측 데이터로부터 역학 시스템의 장기적 거동과 불변 구조를 식별하기 위해 가역 신경망을 활용한 '부드러운 프로토타입 동등성 (SPE)' 프레임워크를 제안하며, 이를 통해 진동 시스템 분류 및 생물학적 과정 추적에서 기존 기법보다 우수한 성능을 입증했습니다.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

이 논문은 추천 시스템 및 RAG 와 같은 대규모 데이터 환경에서 관련성과 다양성을 동시에 확보하는 NP-hard 부분집합 선택 문제를 해결하기 위해, 기존 방법보다 20~80 배 빠르면서 정밀도를 최대 4% 포인트 향상시키고 최적 해에 대한 상수 인자 근사 보장을 제공하는 새로운 다단계 접근법인 MUSS 를 제안합니다.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

이 논문은 고비용의 수동 단계 주석이 필요 없이 예측 엔트로피를 기반으로 논리적 전환점을 자동으로 식별하여 효율적인 과정 보상 모델 (EDU-PRM) 을 제안하며, 적은 학습 데이터로도 최첨단 성능을 달성하고 추론 정확도를 높이며 토큰 사용량을 대폭 줄인다는 결과를 보여줍니다.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

이 논문은 SMOTE, ADASYN, CTGAN 을 통합한 새로운 하이브리드 데이터 균형화 프레임워크인 'MetaBoost'와 반사실 분석을 활용하여 대사증후군 예측의 정확도를 높이고, 혈당과 중성지방이 주요 위험 인자임을 규명함으로써 임상적 통찰력을 제공합니다.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

이 논문은 K-5 수학 및 독해 평가 문항의 난이도를 예측하기 위해 대규모 언어 모델 (LLM) 을 활용한 직접 추정법과 특징 기반 앙상블 모델 접근법을 비교한 결과, LLM 이 추출한 언어 및 인지 특징을 나무 기반 머신러닝 모델에 입력하는 방식이 가장 높은 예측 정확도를 보였음을 입증했습니다.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

이 논문은 Gran Turismo 7 에서 외부 위치 추적 없이 차량의 전방 카메라와 온보드 센서 데이터만을 활용하여 챔피언급 수준의 경쟁력을 갖춘 최초의 비전 기반 강화 학습 레이싱 에이전트를 제안합니다.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

이 논문은 신경망을 베이지안 통계역학 시스템으로 간주하여 데이터 분포의 미세한 변화가 네트워크 구성 요소의 사후 기대값에 미치는 영향을 분석하는 선형 응답 프레임워크를 개발함으로써, 3M 파라미터 트랜스포머 모델에서 다중그램 및 유도 헤드와 같은 기능적 모듈을 분리할 수 있는 저차원 구조를 가진 반응 행렬을 제시합니다.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

이 논문은 출발지 - 목적지 (OD) 흐름과 경로 정보를 통합한 이질적 그래프 학습 프레임워크 'HetGL2R'을 제안하여 기존 방법의 한계를 극복하고 도로 구간 중요도 순위 예측 성능을 크게 향상시켰습니다.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

본 논문은 2019 년부터 2025 년까지의 대규모 언어 모델 및 자율 AI 에이전트 평가 벤치마크를 통합된 분류체계로 정리하고, 에이전트 프레임워크, 실제 응용 사례, 에이전트 간 협력 프로토콜을 종합적으로 검토하며 향후 연구 방향을 제시합니다.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

이 논문은 다중 소스 고차원 데이터에서 전이 가능한 구조를 추출하고 체계적 편향을 완화하기 위해, 볼록 완화와 미러-프록스 알고리즘을 통해 비볼록 최적화 문제를 해결하는 분포 강건한 공유 표현 학습 프레임워크인 StablePCA 를 제안합니다.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

이 논문은 이질적인 데이터에서 개별 최적 정책을 찾기 위해 개인 잠재 변수를 활용한 이질적 모델과 페널티를 부과한 비관적 개인화 정책 학습 (P4L) 알고리즘을 제안하며, 약한 부분 커버리지 가정 하에 평균 후회율의 빠른 수렴을 보장하고 기존 방법보다 우수한 성능을 입증합니다.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← 이전 다음 →