cs.LG 편의 논문 | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

이 논문은 CLIP 인코더의 교차 모달 임베딩에 대한 구형 선형 보간 (SLERP) 을 활용한 '개념 드리프트' 메커니즘과 적응형 레이어노름 튜닝을 결합하여, 멀티모달 은유 식별의 정확도를 높이고 기존 생성 모델 대비 학습 비용을 대폭 절감한 효율적인 프레임워크인 CDGLT 를 제안합니다.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li2026-03-11🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

이 논문은 그룹 내 모든 응답이 틀린 경우에도 학습 신호를 활용할 수 있도록 단계별 판정 모델을 도입하여 그룹 상대 정책 최적화 (GRPO) 의 한계를 극복하고 추론 능력을 향상시키는 '단계별 유도 정책 최적화 (SGPO)' 프레임워크를 제안합니다.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

이 논문은 이진 은닉 유닛을 q-상태 범주형 (포츠) 유닛으로 대체하여 이산적 구조 표현 능력을 향상시킨 가우시안-멀티노이리 제한 볼츠만 머신 (GM-RBM) 을 제안하고, 용량 및 파라미터 매칭 조건 하에서 아날로그 회상 및 구조적 기억 벤치마크에서 기존 모델과 경쟁력 있거나 더 나은 성능을 보임을 입증합니다.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

이 논문은 모델 가중치나 생성 과정에 대한 접근 권한 없이도 API 를 통해 호출되는 블랙박스 LLM 의 토큰 로그 확률 정보만을 활용하여 BiasNet 이라는 작은 플러그인 블록을 통해 효과적으로 재프로그래밍 (JAILBREAK) 하는 JULI 방법을 제안합니다.

Jesson Wang, Zhanhao Hu, David Wagner2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

이 논문은 대칭 불변량을 원자 단위로 활용하여 기존 방정식 발견 방법의 검색 공간을 축소하고 물리 법칙을 준수하는 해석 가능한 미분방정식을 효율적으로 도출하는 새로운 접근법을 제안합니다.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

이 논문은 기존 방법론보다 7 배 이상 빠르고 VRAM 사용량을 4 분의 1 로 줄여 24GB 소비자용 GPU 에서 7B 크기의 언어 모델을 편집할 수 있을 뿐만 아니라, 200 만 건 이상의 편집을 지원하면서도 정확도를 유지하는 'UltraEdit'라는 새로운 효율적이고 확장 가능한 평생 학습 기반 모델 편집 프레임워크를 제안합니다.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

이 논문은 엣지 장치에서 LLM 을 배포할 때 3.5 비트 이하의 양자화를 적용한 대규모 모델이 작은 고정밀 모델보다 성능이 우수하며, 모델 크기 감소에 따른 처리량 병목 현상이 통신 오버헤드에서 계산 지연으로 전환된다는 것을 체계적인 평가를 통해 규명하고 최적화 가이드라인을 제시합니다.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

이 논문은 확장성, 검증 가능성, 그리고 난이도 조절이 가능한 부울 만족도 (SAT) 문제를 기반으로 한 강화 학습 프레임워크인 'SATURN'을 제안하여, LLM 의 추론 능력을 체계적으로 향상시키고 수학 및 프로그래밍 태스크에서도 우수한 성능을 입증했습니다.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

이 논문은 합성 데이터의 한계를 넘어 실세계 구조와 대규모 규모를 반영하는 새로운 벤치마크 'FrontierCO'를 제안하고, 이를 통해 기존 최적화 솔버와 비교 평가한 머신러닝 기반 솔버들의 실제 성능과 한계를 체계적으로 분석합니다.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

이 논문은 대형 언어 모델 및 멀티모달 모델 등 기초 모델과 embodied AI 를 결합하여 모바일 서비스 로봇의 유연한 이해와 적응적 행동 구현을 도모하는 기술적 진전, 핵심 과제, 실제 응용 사례, 그리고 윤리적·사회적 함의와 향후 연구 방향을 체계적으로 고찰한 최초의 리뷰입니다.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

이 논문은 제한된 라벨 데이터 환경에서 커버리지 안정성을 향상시키기 위해 라벨링되지 않은 데이터의 유사한 의사-라벨 샘플을 기반으로 한 '가장 인접한 이웃 매칭 (NNM)' 점수를 도입하여, 라벨과 라벨 없는 데이터를 모두 활용하는 새로운 준지도 conformal 예측 방법인 SemiCP 를 제안하고 그 이론적 수렴성과 실험적 유효성을 입증합니다.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Pure Exploration with Infinite Answers

이 논문은 무한한 정답 집합을 가진 순수 탐색 문제를 다루며, 기존 방법론의 한계를 지적하고 점근적 최적성을 보장하는 'Sticky-Sequence Track-and-Stop' 프레임워크를 제안합니다.

Riccardo Poiani, Martino Bernasconi, Andrea Celli2026-03-11🤖 cs.LG

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

이 논문은 대규모 언어 모델 (LLM) 의 사전 지식과 메타 러닝을 활용하여 다양한 도메인의 시계열 데이터 품질을 효율적이고 정확하게 평가하는 통합 프레임워크인 'TSRating'을 제안합니다.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

이 논문은 협력적 다중 에이전트 강화학습의 신용 할당 문제를 해결하기 위해 협력 게임 이론의 코어 (core) 개념을 도입하여 연합별 기여도를 평가하고 할당하는 CORA 알고리즘을 제안하며, 이를 통해 에이전트 간 조율된 최적 행동을 유도하고 기존 방법들보다 우수한 성능을 입증합니다.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

이 논문은 데이터 수집 및 정책 배포 비용이 큰 환경에서 단일 에이전트 및 연방 강화학습을 위해 선형 번인 비용과 로그 스위칭/통신 비용을 달성하면서 최적의 후회 (regret) 를 보장하는 두 가지 새로운 모델 없는 알고리즘을 제안하고 이론적 보장을 제시합니다.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

이 논문은 실제 세계의 다변량 시계열 데이터에서 발생하는 채널 간 의존성, 비동기적 샘플링, 결측치 문제를 동시에 해결하기 위해 제안된 'ChannelTokenFormer'라는 트랜스포머 기반 프레임워크를 소개하고, 이를 통해 다양한 실제 환경에서 뛰어난 예측 성능과 견고성을 입증했습니다.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

← 이전 다음 →

cs.LG