cs.CL 편의 논문 | Gist.Science

Link Prediction for Event Logs in the Process Industry

이 논문은 독일 공정 산업의 시프트 로그에 존재하는 단편화된 이벤트 기록을 연결하여 RAG 기반 지식 관리 시스템의 품질을 향상시키기 위해 자연어 추론과 의미적 텍스트 유사성 원리를 결합한 새로운 레코드 링크 모델을 제안하고, 기존 모델 대비 성능을 크게 개선했음을 입증합니다.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

이 논문은 번역 시스템 실행 없이 어휘 생성도 (fertility), 토큰 수, 그리고 언어적 메타데이터만으로도 GPT-4o 의 다국어 번역 품질을 놀라운 정확도로 예측할 수 있음을 보여줍니다.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

이 논문은 16 개 아프리카 언어로 구성된 AfriMMLU 벤치마크를 통해 토큰화 비효율성 (높은 토큰/단어 비율) 이 저자원 언어의 정확도 저하와 계산 비용 증가를 초래하는 '토큰세'를 유발함을 입증하고, 추론 모델이 이러한 격차를 완화할 수 있음을 보여주며, 이를 해결하기 위해 형태론적 인식을 갖춘 토큰화 및 공정한 가격 책정의 필요성을 강조합니다.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

이 논문은 대형 언어 모델이 답변을 생성하기 전의 질문 단계 활성화만으로도 정답 예측 가능성과 '모르겠습니다' 응답의 신뢰도를 선형 프로브를 통해 효과적으로 포착할 수 있음을 규명합니다.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

이 논문은 대규모 언어 모델의 전학습을 위한 데이터 필터링에 있어, 기존 퍼플렉시티 (PPL) 기반 방법보다 1000 배 이상 빠르면서도 더 높은 성능을 보이는 토큰 사전 확률 (token priors) 에 기반한 새로운 데이터 필터링 기법을 제안합니다.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

이 논문은 트랜스포머의 계산적 보편성에 기반하여 점근적으로 최적의 설명 길이 목적 함수를 이론적으로 정립하고, 적응형 가우시안 혼합 사전 분포를 활용한 변분 목적 함수를 제안하여 알고리즘적 작업에서 낮은 복잡성과 우수한 일반화를 달성하는 잠재적 경로를 제시합니다.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 그래프 기반 추상을 통해 강화학습이 언어 모델의 계획 능력을 향상시키는 메커니즘을 이론적으로 분석하여, 탐색의 중요성과 정책 경사법의 다양성 붕괴 문제, 그리고 오프-폴리시 학습과 다양성 보존이라는 Q-러닝의 장점을 규명하고 이를 Blocksworld 벤치마크를 통해 실증했습니다.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

이 논문은 n-그램 신규성 (n-gram novelty) 만으로는 텍스트 창의성을 제대로 평가할 수 없으며, 인간 전문가의 평가와 달리 고도화된 LLM 은 높은 신규성이 오히려 실용성 저하와 연결되는 경향이 있음을 8,618 개의 전문가 주석을 통해 규명하고, 창의성 평가에 n-그램 지표보다 LLM 기반 평가가 더 적합할 수 있음을 시사합니다.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

이 논문은 자율적 LLM 이 운영 목표와 인간 안전이 상충하는 상황에서 위험한 행동을 선택하거나 지나치게 안전에 치우쳐 비효율적으로 행동하는 '안전-실용성 트레이드오프'를 평가하기 위해, 실제 관리 시나리오를 기반으로 한 새로운 벤치마크인 ManagerBench 를 제안하고 기존 최첨단 모델들이 이러한 의사결정에서 실패함을 보여줍니다.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

이 논문은 데이터 처리부터 RAG 시스템 구축 및 평가까지의 전체 파이프라인을 제공하는 새로운 프레임워크인 AccurateRAG 를 소개하며, 이를 통해 기존 최강의 베이스라인을 능가하는 새로운 최첨단 질문 답변 성능을 달성함을 보여줍니다.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

이 논문은 LLM 간 텍스트 생성을 거치지 않고 KV-Cache 를 직접 융합하여 의미 정보를 전달하는 'Cache-to-Cache(C2C)'라는 새로운 패러다임을 제안함으로써, 기존 텍스트 통신 방식보다 정확도와 속도를 동시에 크게 향상시켰음을 보여줍니다.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

이 논문은 VAE 를 통해 구조화된 잠재 추론 공간을 구축하고 잠재 확산 모델을 활용하여 기존 LLM 의 자기회귀적 한계를 극복하며, 다양한 추론 경로를 병렬로 생성하고 전역적으로 수정·개선할 수 있는 새로운 추론 프레임워크인 LaDiR 을 제안합니다.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

이 논문은 안전 정렬된 대형 언어 모델의 과도한 거부를 완화하기 위해, 모델의 파라미터를 수정하지 않고 추론 시 에너지 기반 모델의 기울기를 활용하여 내부 활성화를 실시간으로 조정하는 '에너지 지형 조향 (ELS)' 프레임워크를 제안하고 그 유효성을 입증합니다.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

이 논문은 10 개 언어를 대상으로 한 평가를 통해 사전 훈련된 언어 모델이 명시적 지시와 맥락 정보에도 불구하고 차용어와 고유어를 구분하는 데 실패하며, 이는 소수 언어의 언어 보존 및 NLP 도구 개발에 중요한 시사점을 제공한다는 것을 보여줍니다.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

이 논문은 LLM 의 추론 시 불확실성 기반의 기존 정렬 방식이 가진 한계를 극복하고, 고정된 간격으로 검증을 수행하는 'STARS' 알고리즘을 통해 시스템 처리량을 극대화하면서도 인간 가치와의 정렬 신뢰도를 향상시키는 방법을 제안합니다.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

이 논문은 자연어 쿼리의 모호성을 결함이 아닌 사용자와 시스템 간의 협력적 상호작용의 특징으로 재정의하여, 쿼리 해석의 책임 분담을 기반으로 한 새로운 프레임워크를 제시하고 기존 평가 방법의 한계를 지적하며 향후 연구 방향을 제안합니다.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

TransactionGPT

이 논문은 세계 최대 결제 네트워크 중 하나의 소비자 거래 데이터를 기반으로 한 새로운 3D-Transformer 아키텍처를 도입하여 이상 거래 탐지 및 미래 거래 생성 등 다양한 하위 작업에서 기존 모델보다 우수한 성능과 효율성을 입증한 'TransactionGPT'라는 거래 데이터 전용 파운데이션 모델을 제안합니다.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

이 논문은 대조적 텍스트 쌍에서 도출된 감정 표현 벡터를 사용하여 LLaMA 3.1-8B 의 활성화 패턴을 조작함으로써, 대규모 언어 모델이 더 인간적이고 설득력 있는 감정적 뉘앙스를 negotiation(협상) 상황에서 자연스럽게 표현하도록 유도하는 정밀하고 해석 가능한 프레임워크를 제시합니다.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

이 논문은 정신 건강 및 온라인 안전 분야에서 고품질의 자동 데이터 보강을 위해 신뢰도 기반의 세밀한 논쟁 (CFD) 프레임워크를 제안하고, 이를 통해 기존 베이스라인 대비 온라인 안전 작업에서 9.9% 의 성능 향상을 달성했음을 보여줍니다.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

이 논문은 16 가지 다양한 장르를 포함하고 세부적인 하위 유형 분류를 제공하는 새로운 브리징 어나포라 코퍼스인 GUMBridge 를 소개하고, 현대 LLM 들을 이용한 평가 결과를 통해 브리징 해결 및 하위 유형 분류가 여전히 어려운 NLP 작업임을 보여줍니다.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

← 이전 다음 →