Addressing the Ecological Fallacy in Larger LMs with Human Context

이 논문은 대규모 언어 모델 (8B Llama) 에 대해 저자의 언어적 맥락을 고려한 HuLM 과 HuFT 기법을 적용하여 생태학적 오류를 해결함으로써, 기존 표준 미세조정 방식보다 다양한 하위 작업에서 성능을 크게 향상시킬 수 있음을 입증했습니다.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

이 논문은 데이터 부족과 스타일 분리 복잡성으로 인해 소규모 언어 모델의 역할극 성능이 제한되는 문제를 해결하기 위해, 어휘·구문·화용론적 스타일을 명시적으로 분리하고 추론 과정에서의 연쇄 사고 (CoT) 증류 기반의 암묵적 스타일 조건부 전략을 제안하여, 추론 시 추가 토큰 없이도 소비자용 하드웨어에서 대형 모델보다 뛰어난 스타일 일관성과 의미 충실도를 달성하는 효율적인 프레임워크를 제시합니다.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

이 논문은 개인적 성향과 상황적 맥락의 상호작용을 기반으로 한 이론적 프레임워크와 대규모 언어 모델을 결합하여, 해석 가능성과 예측 성능을 동시에 확보하는 동적 정신 건강 평가 모델을 개발하고 그 유효성을 입증합니다.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

이 논문은 GPU 메모리 병목 현상을 해결하면서도 비볼록 환경에서 O~(ϵ3)\tilde{\mathcal{O}}(\epsilon^{-3})의 개선된 반복 복잡도를 보장하는 메모리 효율적 최적화 방법인 'Omni-Masked Gradient Descent (OMGD)'를 제안하고, 미세 조정 및 사전 학습 작업에서 기존 베이스라인보다 일관된 성능 향상을 입증합니다.

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng2026-03-09🤖 cs.LG

Latent Diffusion-Based 3D Molecular Recovery from Vibrational Spectra

이 논문은 적외선 (IR) 스펙트럼에서 3 차원 분자 기하구조를 복원하기 위해 스펙트럼 정보를 분자 구조의 노드와 엣지 표현에 통합한 잠재 확산 모델 'IR-GeoDiff'를 제안하고, 이 모델이 주어진 스펙트럼에 대응하는 분자 분포를 성공적으로 복원하며 화학적 해석과 일치하는 기능기 영역에 주의를 기울일 수 있음을 입증합니다.

Wenjin Wu, Aleš Leonardis, Linjiang Chen, Jianbo Jiao2026-03-09🤖 cs.LG

Dynamic Momentum Recalibration in Online Gradient Learning

이 논문은 고정된 모멘텀 계수의 한계를 극복하기 위해 최적 선형 필터링 원리를 기반으로 온라인 가중치를 동적으로 조정하여 노이즈 억제와 신호 보존 사이의 최적 균형을 달성하는 새로운 옵티마이저 'SGDF'를 제안하고, 이를 통해 기존 모멘텀 기반 방법론을 능가하는 성능을 입증합니다.

Zhipeng Yao, Rui Yu, Guisong Chang, Ying Li, Yu Zhang, Dazhou Li2026-03-09🤖 cs.LG

Diffusion Language Models Are Natively Length-Aware

이 논문은 Diffusion 언어 모델이 고정된 길이로 생성되는 비효율성을 해결하기 위해, 잠재 프롬프트 표현을 기반으로 필요한 출력 길이를 추정하여 생성 전 컨텍스트 창을 동적으로 잘라냄으로써 연산 비용을 대폭 절감하면서도 성능을 유지하거나 향상시키는 제로샷 메커니즘을 제안합니다.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

이 논문은 입력 상태에 공간적 일관성을 가진 노이즈 (예: Perlin 노이즈) 를 가하는 앙상블 학습 전략을 통해 추가적인 학습 비용 없이 해상도 표면 온도 확률 예보의 보정 성능을 향상시키는 그래프 신경망 (GNN) 기반 방법을 제안하고 그 유효성을 입증합니다.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

이 논문은 인공 알파벳의 레이블된 데이터를 기반으로 한 대비 학습으로 교사를 훈련한 후, 역사적 문자 체계에 대한 비지도 지식 증류를 적용하여 지도 학습과 비지도 발견을 연결하는 2 단계 프레임워크를 제안하여, 진화적 관계에 대한 정답이 없어도 글자 인식과 문자 군집화를 효과적으로 수행할 수 있음을 보여줍니다.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI