cs.LG 편의 논문 | Gist.Science

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

이 논문은 고정된 롤아웃 할당의 비효율성을 해결하기 위해 경량 가우시안 프로세스 모델을 통해 각 프롬프트의 성공 확률을 예측하고 이를 기반으로 분산을 최소화하는 볼록 최적화를 수행하여 롤아웃을 동적으로 할당하는 'VIP' 전략을 제안하여 온라인 강화학습의 샘플링 효율성을 크게 향상시킵니다.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

이 논문은 전통적인 모델 중심의 시계열 예측을 넘어, 지각·계획·행동·성찰·기억을 갖춘 에이전트 워크플로우로 예측을 재정의하는 '에이전트 시계열 예측 (ATSF)' 패러다임을 제안하고 그 구현 방식과 기회 및 과제를 논의합니다.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

이 논문은 대규모 언어 모델의 행동 제어를 위한 활성화 조향 벡터가 입력 - 출력 행동만으로는 고유하게 식별할 수 없으며, 이는 해석 가능성의 근본적인 한계를 시사한다는 점을 실증적으로 보여줍니다.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

이 논문은 화학 추론을 자연어 기반의 명시적 사고 과정 대신 연속적인 잠재 공간에서 수행하도록 하는 'LatentChem'을 제안하여, 텍스트 생성을 최소화하면서도 추론 속도를 10 배 이상 향상시키고 정확도를 크게 개선했음을 보여줍니다.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

이 논문은 코사인 유사도 기반의 대비 학습에서 임베딩 크기를 노이즈로 간주하는 기존 관념을 넘어, 쿼리와 문서의 크기를 독립적으로 제어하는 프레임워크를 통해 검색 및 RAG 성능을 획기적으로 개선하고 일반화 능력을 향상시키는 방법론과 실용적 지침을 제시합니다.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

본 논문은 분기점과 같은 급격한 위상 전이를 가진 매개변수화된 동역학 시스템을 모델링할 때 발생하는 스펙트럼 편향을 해결하기 위해, 지도 기반 거리 정규화와 위상 기반 교차 최적화를 통해 잠재 공간을 구조화하는 토폴로지 인식 PINN(TAPINN) 을 제안하여 물리 잔차를 크게 감소시키고 안정적인 수렴을 달성함을 보여줍니다.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

이 논문은 진동 시스템의 잔차 다양체 학습을 위해 Kolmogorov-Arnold 네트워크 (KAN) 를 하드 제약 순환 물리 정보 아키텍처에 통합한 실험적 안정성 분석을 통해, KAN 이 다항식 잔차에서는 경쟁력 있으나 곱셈 항과 깊은 구조에서는 MLP 보다 불안정하고 성능이 저하됨을 규명하여 원래 KAN 수식의 가법적 유도 편향이 상태 결합에 한계가 있음을 시사합니다.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

이 논문은 이미 생성된 토큰도 수정할 수 있는 점진적 자기 교정 (ProSeCo) 프레임워크를 제안하여, 마스킹 확산 모델 (MDM) 의 오류 누적 문제를 해결하고 샘플 품질과 효율성을 동시에 향상시켰습니다.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

이 논문은 희소하거나 프라이버시 제약이 있는 표제 데이터의 합성을 위해 양자 회로의 표현력과 고전 신경망을 결합한 하이브리드 양자 - 고전 생성적 적대 신경망인 QTabGAN 을 제안하고, 기존 최첨단 모델 대비 최대 54.07% 의 성능 향상을 입증했습니다.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

이 논문은 훈련 데이터 범위를 벗어난 외삽 (Out-of-Support) 문제를 가중치 공간의 시퀀스 모델링으로 재정의하고, 명시적인 귀납적 편향 없이도 신뢰할 수 있는 예측을 가능하게 하는 'WeightCaster' 프레임워크를 제안하여 안전 필수 분야에서 AI 의 신뢰성을 높이는 결과를 보여줍니다.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

이 논문은 계산적 제약으로 인해 어려웠던 대규모 노동 시장 에이전트 기반 모델의 매개변수 추정을 위해, 신경망을 활용한 시뮬레이션 기반 추론 프레임워크가 기존 베이지안 방법보다 효율적으로 정확한 매개변수를 복원함을 입증했습니다.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

이 논문은 알려지지 않은 분포 드리프트가 발생하는 비정상 데이터 스트림에서 훈련 조건부 누적 후회를 최소화하는 온라인 공형 예측을 위해, 드리프트 감지를 활용한 분할 공형 및 안정성에 기반한 전체 공형 알고리즘을 제안하고 그 최적성을 이론적으로 증명합니다.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

이 논문은 적응 면역 레퍼토리의 대규모 비교 분석 시 발생하는 계산 비용과 데이터 불균형 문제를 해결하기 위해, MinHash 기반의 효율적 검색, 적응적 멀티모달 융합, 그리고 공평성 제약 클러스터링을 통합한 확장성 있는 SubQuad 프레임워크를 제안합니다.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

이 논문은 구조 인식 마스킹과 GRPO 를 활용한 3 단계 커리큘럼 학습 프레임워크를 제안하여, Qwen2.5-3B-Base 모델이 GSM8K 에서 정확도를 11.29% 향상시키면서 동시에 출력 길이를 27.4% 단축하는 효율적인 체인 오브 씽킹 증류 방법을 제시합니다.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

이 논문은 실제 세계의 이질성 하에서 호흡기 오디오 질문 응답 (QA) 의 성능을 평가하기 위해, 공개 데이터셋을 통합하여 900 만 개의 다양한 QA 쌍을 포함하는 표준화된 벤치마크 시스템인 RA-QA 를 제안하고 현재 모델들의 한계를 분석합니다.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

이 논문은 기존 Shapley 값이 관찰 데이터의 인과적 맥락을 무시할 때 콜라이더 편향 등으로 인해 잘못된 특징 중요도를 산출할 수 있음을 지적하고, 데이터의 인과 구조를 반영하여 이러한 오류를 해결하는 새로운 방법인 'cc-Shapley'를 제안합니다.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

이 논문은 불균형 회귀 데이터 스트림을 위해 커널 밀도 추정을 확장하고 계층적 수축을 통합하여, Hoeffding 트리의 초기 성능을 개선하는 방법을 제안하고 실험적으로 검증합니다.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

이 논문은 분자와 물질을 모두 다루는 3D 화학 모델링을 위해 생성 및 예측 작업을 통합한 최초의 오픈소스 기반 모델인 'Zatom-1'을 제안하며, 멀티모달 흐름 매칭을 통해 기존 특화 모델 대비 우수한 성능과 빠른 추론 속도를 달성하고 도메인 간 전이 학습 효과를 입증했습니다.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

← 이전 다음 →