Link Prediction for Event Logs in the Process Industry

이 논문은 독일 공정 산업의 시프트 로그에 존재하는 단편화된 이벤트 기록을 연결하여 RAG 기반 지식 관리 시스템의 품질을 향상시키기 위해 자연어 추론과 의미적 텍스트 유사성 원리를 결합한 새로운 레코드 링크 모델을 제안하고, 기존 모델 대비 성능을 크게 개선했음을 입증합니다.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

이 논문은 16 개 아프리카 언어로 구성된 AfriMMLU 벤치마크를 통해 토큰화 비효율성 (높은 토큰/단어 비율) 이 저자원 언어의 정확도 저하와 계산 비용 증가를 초래하는 '토큰세'를 유발함을 입증하고, 추론 모델이 이러한 격차를 완화할 수 있음을 보여주며, 이를 해결하기 위해 형태론적 인식을 갖춘 토큰화 및 공정한 가격 책정의 필요성을 강조합니다.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

이 논문은 트랜스포머의 계산적 보편성에 기반하여 점근적으로 최적의 설명 길이 목적 함수를 이론적으로 정립하고, 적응형 가우시안 혼합 사전 분포를 활용한 변분 목적 함수를 제안하여 알고리즘적 작업에서 낮은 복잡성과 우수한 일반화를 달성하는 잠재적 경로를 제시합니다.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 그래프 기반 추상을 통해 강화학습이 언어 모델의 계획 능력을 향상시키는 메커니즘을 이론적으로 분석하여, 탐색의 중요성과 정책 경사법의 다양성 붕괴 문제, 그리고 오프-폴리시 학습과 다양성 보존이라는 Q-러닝의 장점을 규명하고 이를 Blocksworld 벤치마크를 통해 실증했습니다.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

이 논문은 n-그램 신규성 (n-gram novelty) 만으로는 텍스트 창의성을 제대로 평가할 수 없으며, 인간 전문가의 평가와 달리 고도화된 LLM 은 높은 신규성이 오히려 실용성 저하와 연결되는 경향이 있음을 8,618 개의 전문가 주석을 통해 규명하고, 창의성 평가에 n-그램 지표보다 LLM 기반 평가가 더 적합할 수 있음을 시사합니다.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

이 논문은 자율적 LLM 이 운영 목표와 인간 안전이 상충하는 상황에서 위험한 행동을 선택하거나 지나치게 안전에 치우쳐 비효율적으로 행동하는 '안전-실용성 트레이드오프'를 평가하기 위해, 실제 관리 시나리오를 기반으로 한 새로운 벤치마크인 ManagerBench 를 제안하고 기존 최첨단 모델들이 이러한 의사결정에서 실패함을 보여줍니다.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

이 논문은 안전 정렬된 대형 언어 모델의 과도한 거부를 완화하기 위해, 모델의 파라미터를 수정하지 않고 추론 시 에너지 기반 모델의 기울기를 활용하여 내부 활성화를 실시간으로 조정하는 '에너지 지형 조향 (ELS)' 프레임워크를 제안하고 그 유효성을 입증합니다.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

이 논문은 대조적 텍스트 쌍에서 도출된 감정 표현 벡터를 사용하여 LLaMA 3.1-8B 의 활성화 패턴을 조작함으로써, 대규모 언어 모델이 더 인간적이고 설득력 있는 감정적 뉘앙스를 negotiation(협상) 상황에서 자연스럽게 표현하도록 유도하는 정밀하고 해석 가능한 프레임워크를 제시합니다.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

이 논문은 정신 건강 및 온라인 안전 분야에서 고품질의 자동 데이터 보강을 위해 신뢰도 기반의 세밀한 논쟁 (CFD) 프레임워크를 제안하고, 이를 통해 기존 베이스라인 대비 온라인 안전 작업에서 9.9% 의 성능 향상을 달성했음을 보여줍니다.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL