cs.LG 편의 논문 | Gist.Science

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

NMIRacle 는 IR 과 NMR 스펙트럼 데이터를 기반으로 분자 구조를 정확하게 예측하기 위해 분자 조각 재구성과 스펙트럼 임베딩을 결합한 2 단계 생성형 프레임워크를 제안하여 기존 방법들보다 우수한 성능을 입증한 연구입니다.

Federico Ottomano, Yingzhen Li, Alex M. Ganose2026-03-12🔬 physics

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

이 논문은 다양한 신경망 아키텍처에서 경사 하강법이 안장점 (saddle) 에서 안장점으로 이동하는 동역학을 통해, 단순한 해 (낮은 랭크, 적은 커널 등) 에서 점차 복잡한 해로 진화하는 '단순성 편향 (simplicity bias)'을 설명하는 통합 이론적 프레임워크를 제시합니다.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

이 논문은 자연 이미지와 달리 저조도 애니메이션 풍경 이미지 개선의 도메인 격차를 해소하기 위해, 불확실성 정보를 활용한 데이터 상대론적 불확실성 (DRU) 프레임워크를 제안하고 이를 통해 기존 최첨단 방법보다 우수한 지각적 및 미적 품질을 달성함을 보여줍니다.

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

이 논문은 '베이즈 풍동'이라는 통제된 환경을 통해 트랜스포머가 주어진 컨텍스트에서 베이즈 추론을 수행하며, 이는 잔류 스트림, 피드포워드 네트워크, 어텐션 메커니즘이 각각 믿음의 기반, 사후 확률 업데이트, 콘텐츠 기반 라우팅을 담당하는 기하학적 구조로 구현됨을 입증합니다.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

이 논문은 교차 엔트로피 손실 함수를 통한 그래디언트 학습이 어텐션 점수와 값 벡터의 공진화적 특화를 유도하여 베이지안 매니폴드를 조각내며, 이것이 컨텍스트 내 확률적 추론을 가능하게 하는 기하학적 구조를 형성한다는 메커니즘을 분석합니다.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

본 논문은 Pythia, Llama-3 등 다양한 대규모 언어 모델에서도 소규모 모델에서 관찰된 베이지안 추론의 기하학적 특징 (예측 엔트로피와 상관된 주성분 축) 이 유지되며, 이를 통한 불확실성 추정이 이루어짐을 확인하고 해당 기하학적 구조가 불확실성의privileged한 읽기 도구임을 입증했습니다.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

이 논문은 H&E 염색 조직 슬라이드에서 직접 분자 아형 (기저형 및 고전형) 을 예측하여 비용 효율적이고 해석 가능한 췌장암 정밀 의학을 가능하게 하는 딥러닝 프레임워크 'PanSubNet'을 제안하고, 다기관 코호트에서 높은 정확도와 예후 예측 능력을 입증했습니다.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

이 논문은 검색 증강 LLM 의 과도한 검색 문제를 다각도로 분석하고, 효율성-정확도 균형을 측정하는 새로운 지표인 'Tokens Per Correctness(TPC)'를 제안하며, 이를 완화하기 위한 방법과 관련 데이터셋인 OverSearchQA 를 공개합니다.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

이 논문은 선형 확률 보간체에서 유도된 확률 흐름 ODE 를 기반으로 랑주빈 샘플러를 사용하여 중간 시간 단계의 분포에서 샘플을 생성하고 속도장을 추정함으로써, 비정규화 볼츠만 분포로부터의 효율적인 샘플링과 베이지안 추론을 가능하게 하는 새로운 방법을 제안하고 이론적 수렴 보장을 제공합니다.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

이 논문은 생성 모델을 사전 정보로 활용하는 베이지안 역문제에 대해 최소 워asser-2 생성 모델에 대한 정량적 오차 한계를 제시하고, 사후분포의 오차가 워asser-1 거리에 대해 사전 모델의 오차와 동일한 수렴 속도를 가진다는 것을 이론적으로 증명하며 수치 실험을 통해 검증합니다.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

이 논문은 Hahn 다항식 기반의 학습 가능한 활성화 함수를 활용한 KAN(Kolmogorov-Arnold Networks) 구조인 HaKAN 을 제안하여, 기존 트랜스포머와 MLP 기반 모델의 한계를 극복하고 다변량 시계열 예측에서 뛰어난 성능과 해석 가능성을 입증했습니다.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

이 논문은 노이즈로 인한 수렴 불안정성을 해결하기 위해 STORM 기반의 분산 감소와 동일 배치 곡률 검증 메커니즘을 결합한 'VR-SDA-A' 알고리즘을 제안하여, 비볼록 - 비오목 확률적 변분 부등식 문제에서 최적의 오라클 복잡도 (O(ε⁻³)) 를 달성하면서도 자동 학습률 조정을 가능하게 합니다.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

이 논문은 가중치 행렬의 특이값 감소를 활용하여 저랭크 행렬로 파라미터를 표현하는 '특이 베이지안 신경망'을 제안함으로써, 기존 평균장 근사 대비 파라미터 수를 획기적으로 줄이면서도 OOD 검출 및 보정 성능을 향상시키고 Deep Ensemble 과 경쟁력 있는 예측 성능을 달성하는 방법을 제시합니다.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

이 논문은 고차원 가이드드 확산 모델에서 클래스 수가 지수적으로 증가할 때 발생하는 생성 왜곡 현상을 통계물리학적 접근으로 분석하고, 분산 축소 문제를 해결하면서도 클래스 분리를 유지할 수 있는 음수 가이드 윈도우를 포함한 새로운 이론적 가이드 스케줄을 제안합니다.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

이 논문은 정보이론적 관점에서 볼 때, 제한된 용량을 가진 언어 모델이 최적의 압축 전략을 따를 때 사실과 비사실의 확률 분포 차이를 최소화하는 과정에서 할루시네이션이 불가피하게 발생한다는 것을 증명합니다.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

이 논문은 물리적 제약과 시간적 일관성을 위반할 수 있는 제로샷 비디오 생성 계획을, 학습된 행동 조건부 세계 모델을 통해 역학적으로 실행 가능한 행동 시퀀스로 변환하는 'GVP-WM' 방법을 제안합니다.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

이 논문은 분산 확산 모델의 생성 품질이 수치적 안정성이 아닌, 현재 탈노이즈 상태와 가장 잘 일치하는 전문가를 선택하는 '전문가 - 데이터 정렬'에 의해 결정된다는 것을 규명합니다.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

이 논문은 온라인 수학 튜터링 플랫폼 데이터를 활용하여 학습자의 과거 수행과 특성을 기반으로 컨텍스트 톰슨 샘플링을 적용한 밴딧 기반 추천 시스템을 제안함으로써, 대규모 학습자에게 개인화된 연습 문제를 제공하여 기술 향상도를 극대화하는 방법을 제시합니다.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

이 논문은 유한 4 차 모멘트를 가진 일반 잡음 하에서도 가우시안 잡음과 동일한 점근적 스펙트럼 분포 및 통계적 한계를 보인다는 사실을 증명하여 비대칭 스파이크 텐서 모델의 보편성 원리를 확립합니다.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

이 논문은 $k$ -wise 비교에서 도출된 모든 쌍별 선호도를 전이 폐포를 통해 집계하는 토너먼트 그래프 프레임워크를 제안하여, LLM 기반 문서 재랭킹 등에서 기존 방법 대비 정확도는 유지하거나 향상시키면서 토큰 사용량을 25~40% 절감하는 효율적인 제로샷 순위 에이전트를 제시합니다.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

← 이전 다음 →