cs.LG 편의 논문 | Gist.Science

Stem: Rethinking Causal Information Flow in Sparse Attention

이 논문은 인과적 주의 메커니즘의 정보 흐름 관점을 재해석하여, 초기 토큰의 누적 의존성을 고려한 토큰 위치 감쇠 전략과 출력 민감도 기반 메트릭을 도입한 'Stem' 모듈을 제안함으로써 긴 문맥 처리 시 계산 복잡성과 사전 채우기 지연을 줄이면서도 높은 정확도를 달성합니다.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

이 논문은 PINN 의 느린 학습 속도와 기존 PIELM 의 무작위 초기화 한계를 극복하기 위해, 확률적 적응 샘플링 기법을 통해 PIELM 의 커널을 물리 현상이 집중된 영역에 자동으로 배치하여 경계층이 있는 강성 PDE 를 고정밀도로 빠르게 해결하는 GMM-PIELM 프레임워크를 제안합니다.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

이 논문은 2D 투영 간의 상관관계를 고려하지 않는 기존 방법의 한계를 극복하기 위해, 서로 다른 두 평면에서 학습된 수직 스코어 기반 확산 모델을 결합하여 치과 CBCT 영상의 임플란트 아티팩트를 제거하는 3D 인페인팅 기법을 제안하고 그 유효성을 입증합니다.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

이 논문은 기계 고장 진단의 정확성과 잡음 내성을 향상시키기 위해 고정된 그래프 구조에 의존하지 않고 데이터 기반의 적응형 메시지 전달을 가능하게 하는 새로운 관계 학습 프레임워크인 '극성 직접 교차 어텐션 (PolaDCA)'을 제안하고 산업 데이터셋에서 기존 방법들을 능가하는 성능을 입증합니다.

Zongyu Shi, Laibin Zhang, Maoyin Chen2026-03-09🤖 cs.LG

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

이 논문은 엔트로피 기반 불확실성 점수를 계산하고 플랫 스케일링으로 보정한 후 강화학습을 통해 언어 모델을 학습시키는 3 단계 파이프라인을 제안하여, 고비용의 사후 추정 방식 없이도 해석 가능하고 보정된 불확실성 추정을 효율적으로 수행할 수 있음을 보여줍니다.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner2026-03-09🤖 cs.AI

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

이 논문은 재귀적 자기 개선 과정에서 발생할 수 있는 정렬 편향을 방지하기 위해 목표 편향 지수, 제약 조건 보존 검증, 회귀 위험 정량화라는 세 가지 안전 장치를 도입한 'SAHOO' 프레임워크를 제안하고, 코드 생성 및 추론 등 다양한 작업에서 성능을 향상시키면서도 안전성을 유지하는 것을 입증합니다.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

AI End-to-End Radiation Treatment Planning Under One Second

이 논문은 CT 이미지와 구조 컨투어로부터 단일 아크 VMAT 전립선 치료 계획을 1 초 미만으로 직접 추론하여 기존 자동화 방식보다 획기적으로 속도를 높이고 임상 워크플로우를 간소화하는 종단간 딥러닝 프레임워크인 AIRT 를 제안합니다.

Simon Arberet, Riqiang Gao, Martin Kraus, Florin C. Ghesu, Wilko Verbakel, Mamadou Diallo, Anthony Magliari, Venkatesan Karuppusamy, Sushil Beriwal, REQUITE Consortium, Ali Kamen, Dorin Comaniciu2026-03-09🤖 cs.AI

MoEless: Efficient MoE LLM Serving via Serverless Computing

이 논문은 MoE 기반 대규모 언어 모델의 전문가 부하 불균형 문제를 해결하기 위해 서버리스 컴퓨팅을 활용한 'MoEless' 프레임워크를 제안하며, 이를 통해 추론 지연 시간을 43%, 비용을 84% 감소시킨다고 보고합니다.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao Wang2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

이 논문은 이미지의 정보 밀도와 확산 단계에 따라 토큰 수를 동적으로 조절하여 계산 효율성과 생성 품질을 동시에 향상시키는 '동적 청킹 확산 트랜스포머 (DC-DiT)'를 제안합니다.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

이 논문은 다중 시간 규모의 동역학을 포착하는 데 한계가 있는 기존 해밀토니안 신경망의 문제를 해결하기 위해, 서로 다른 시간 규모에서 샘플링된 데이터로 학습되는 여러 네트워크를 통해 해밀토니안을 주파수 분리 방식으로 파라미터화하는 '주파수 분리형 해밀토니안 신경망 (FS-HNN)'을 제안하고, 이를 통해 ODE 및 PDE 문제에서 장기 예측 성능과 일반화 능력을 크게 향상시켰음을 보여줍니다.

Yaojun Li, Yulong Yang, Christine Allen-Blanchette2026-03-09🤖 cs.LG

Tiny, Hardware-Independent, Compression-based Classification

이 논문은 정규화 압축 거리가 공식적인 거리 속성을 갖지 않음에도 불구하고 커널 방법과 결합하여 소량의 데이터로 높은 정확도를 달성하며, 프라이버시를 보호하고 제한된 하드웨어에서도 실행 가능한 경량 클라이언트 측 분류 모델을 가능하게 함을 보여줍니다.

Charles Meyers, Aaron MacSween, Erik Elmroth, Tommy Löfstedt2026-03-09🤖 cs.LG

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

이 논문은 고차원 산업 데이터의 복잡성과 노이즈를 해결하기 위해 비지도 딥러닝 표현 학습과 지도 분류를 통합한 CLAIRE 프레임워크를 제안하며, 이를 통해 기존 방법보다 우수한 고장 탐지 성능과 게임 이론 기반의 해석 가능성을 동시에 달성함을 보여줍니다.

Mohammadhossein Ghahramani, Mengchu Zhou2026-03-09🤖 cs.AI

← 이전 다음 →

cs.LG

Stem: Rethinking Causal Information Flow in Sparse Attention

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

AI End-to-End Radiation Treatment Planning Under One Second

MoEless: Efficient MoE LLM Serving via Serverless Computing

Dynamic Chunking Diffusion Transformer

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

Tiny, Hardware-Independent, Compression-based Classification

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

Adaptive Lipschitz-Free Conditional Gradient Methods for Stochastic Composite Nonconvex Optimization

Kinetic-based regularization: Learning spatial derivatives and PDE applications

Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

U6G XL-MIMO Radiomap Prediction: Multi-Config Dataset and Beam Map Approach

Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

A Reference Architecture of Reinforcement Learning Frameworks

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation