cs.LG 편의 논문 | Gist.Science

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

이 논문은 자연어 작업 설명을 언어 임베딩을 통해 밀집된 의미 기반 진행 신호로 변환하여 희소하거나 지연된 환경 피드백을 보완하고, 강화학습 에이전트의 탐색 가속화, 학습 안정화 및 일반화 성능 향상을 가능하게 하는 범용 암시적 보상 메커니즘인 'Reward-Zero'를 제안합니다.

Heng Zhang, Haddy Alchaer, Arash Ajoudani, Yu She2026-03-11🤖 cs.LG

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

이 논문은 그래프 이상 탐지에서의 도메인 이동 문제를 '이상 비연성 (Anomaly Disassortativity)'으로 정의하고, 이를 해결하여 단일 학습 단계로 다양한 도메인에서 최첨단 성능을 보이는 테스트 시간 적응형 그래프 모델 TA-GGAD 를 제안합니다.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng Xie2026-03-11🤖 cs.AI

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

이 논문은 적층 제조의 표면 거칠기를 예측하기 위해 실험 데이터와 생성적 적대 신경망을 결합한 데이터 기반 프레임워크를 개발하고, 이를 통해 3D 모델의 방향과 공정 매개변수를 실시간으로 조정하며 표면 거칠기 분포를 시각화하는 대화형 웹 도구를 제시합니다.

Engin Deniz Erkan, Elif Surer, Ulas Yaman2026-03-11🤖 cs.LG

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

이 논문은 결정 트리나 콕스 회귀와 같은 비미분 가능 임상 모델에도 적용 가능한 차분 프라이버시를 갖춘 영차 최적화 기반 데이터 증류 프레임워크를 제안하여, 민감한 환자 정보를 보호하면서도 임상 예측 모델의 성능을 유지하는 데이터 공유를 가능하게 합니다.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton2026-03-11🤖 cs.AI

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

이 논문은 노드 및 하이퍼엣지 수준의 대조 학습과 클러스터 할당 학습을 결합하여 임베딩과 클러스터링 결과를 동시에 최적화하는 엔드투엔드 방식인 'CAHC'를 제안함으로써 기존 방법들의 한계를 극복하고 속성 하이퍼그래프 클러스터링 성능을 향상시켰습니다.

Li Ni, Shuaikang Zeng, Lin Mu, Longlong Lin2026-03-11🤖 cs.LG

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

이 논문은 희소 센서 데이터의 라스터화, 센서 배치의 적응적 최적화, 그리고 다중 조건 흐름 재구성을 위한 공유 인코더-멀티 디코더 아키텍처를 통해 물리 정보 신경망 (PINN) 기반의 유동장 재구성 정확도와 견고성을 획기적으로 향상시킨 '보로노이 기반 센서 최적화 PINN(VSOPINN)'을 제안하고 검증합니다.

Renjie Xiao, Bingteng Sun, Yiling Chen, Lin Lu, Qiang Du, Junqiang Zhu2026-03-11🤖 cs.LG

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

이 논문은 오프라인 데이터의 행동 지원 범위 내에서 안전한 온라인 탐색을 보장하면서도 디코더의 재구성 손실로 인한 성능 한계를 우회하기 위해, 저차원 잠재 공간 탐색에서 원시 행동 공간 활용으로 점진적으로 전환하는 커리큘럼 학습 프레임워크인 SPAARS 를 제안하고 그 유효성을 입증합니다.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

이 논문은 트랜스포머 기반의 확산 모델에 비해 계산 효율성과 훈련 속도가 월등히 뛰어난 'FCDM(Fully Convolutional Diffusion Model)'을 제안하며, 이를 통해 현대적인 합성곱 설계가 효율적인 생성 모델링을 위한 강력한 대안이 될 수 있음을 입증합니다.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

이 논문은 밀집 환경과 낮은 샘플링 주기를 가진 GPS 데이터의 정합 정확도와 계산 효율성을 향상시키기 위해 동적 버퍼, 적응형 관측 확률, 재설계된 시간적 점수 함수, 그리고 행동 분석을 포함한 네 가지 개선 방안을 제안하고 밀라노의 실제 데이터를 통해 그 효과를 입증합니다.

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

이 논문은 산업 공정 제어의 시뮬레이션-현실 간극을 해결하기 위해 상태 구성, 보상 함수, 종료 조건 및 물리 기반 동역학 모델 등 마르코프 결정 과정 (MDP) 설계 요소가 실제 하드웨어 배포에 미치는 영향을 체계적으로 분석하고, 물리 기반 모델이 단순화된 모델보다 50% 높은 성공률을 보임으로써 RL 의 실용적 배포를 위한 설계 가이드라인을 제시합니다.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

이 논문은 기존 역확률 가중치 (IPW) 의 높은 분산 문제를 해결하기 위해 비모수적 가중치 추정과 보상 예측을 결합한 모델 보조 비모수 가중치 (MNW) 방법을 제안하여 오프폴리시 평가의 정확도와 안정성을 크게 향상시켰음을 보여줍니다.

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

이 논문은 베이지안 추론을 MoE 라우팅 단계에만 국한하여 계산 비용을 거의 증가시키지 않으면서도 대규모 베이스 모델의 불확실성 정량화와 안정성을 획기적으로 개선하는 '변분 혼합 전문가 라우팅 (VMoER)' 프레임워크를 제안합니다.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

이 논문은 이전 관측치에 기반한 조건부 정규화 흐름 (tcNF) 을 제안하여 시계열 데이터의 복잡한 시간적 의존성과 불확실성을 정밀하게 모델링함으로써 기존 방법보다 우수한 정확도와 강건성을 갖춘 다변량 시계열 이상 탐지 프레임워크를 제시합니다.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

이 논문은 CNN 과 트랜스포머 모델을 모두 지원하며 LoRA 와 같은 파라미터 효율적 미세 조정 전략을 통해 메모리 및 연산 제약이 심한 극단적 엣지 장치에서도 온디바이스 학습을 가능하게 하는 하드웨어 가속 프레임워크 'TrainDeeploy'를 제안합니다.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

이 논문은 언어 모델이 의미적 무관성이나 명시적 반대 내용에도 불구하고, 교차 모델이 생성한 충실한 의역 데이터를 통해 특정 동물에 대한 선호도 같은 행동 특성을 은밀하게 학습할 수 있음을 보여주어, 콘텐츠 기반 검사만으로는 이러한 전파를 탐지하거나 차단하기 어렵다는 위험을 제기합니다.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

이 논문은 타겟 모델의 미세 조정으로 인한 성능 저하를 해결하기 위해 공유 및 비공유 구성 요소를 분리하고, 미세 조정된 타겟 모델을 활용한 데이터 재생성 및 고가치 데이터 선별을 통해 파라미터와 데이터 효율성을 극대화하는 '효율적인 초안 적응 (EDA)' 프레임워크를 제안합니다.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

이 논문은 비준수 (noncompliance) 가 있는 밴딧 문제에서 추천과 실제 치료 간 불일치를 해결하기 위해 BRACE 알고리즘을 제안하며, 이는 다양한 학습 목표 (추천 복지 대 치료 학습) 를 동시에 고려하고 약한 식별성 하에서도 안전하고 유효한 불확실성 추정을 가능하게 합니다.

Nicolás Della Penna2026-03-11🤖 cs.LG

← 이전 다음 →

cs.LG

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Learning Bayesian and Markov Networks with an Unreliable Oracle

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

cs.LG

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Compiler-First State Space Duality and Portable O(1)O(1)O(1) Autoregressive Caching for Inference

Learning Bayesian and Markov Networks with an Unreliable Oracle

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference