cs.CL 편의 논문 | Gist.Science

GLUScope: A Tool for Analyzing GLU Neurons in Transformer Language Models

이 논문은 SwiGLU 와 같은 게이트 활성화 함수를 사용하는 최신 트랜스포머 언어 모델의 해석 가능성을 높이기 위해, 각 뉴런의 게이트와 입력 활성화의 네 가지 부호 조합에 따른 텍스트 예시와 발생 빈도를 분석하는 오픈소스 도구인 GLUScope 를 제안합니다.

Sebastian Gerstner, Hinrich Schütze2026-03-02💬 cs.CL

CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing

이 논문은 중국어 전문 글쓰기에서 언어적 오류와 사실적 오류를 통합적으로 수정하는 새로운 태스크인 CLFEC 를 제안하고, 이를 위한 다도메인 데이터셋을 구축하여 대규모 언어 모델 기반의 다양한 수정 패러다임을 체계적으로 평가하고 산업 현장 적용을 위한 실증적 통찰을 제공합니다.

Jian Kai, Zidong Zhang, Jiwen Chen + 5 more2026-03-02💬 cs.CL

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

이 논문은 BERT 와 CLIP 을 활용한 멀티모달 멀티태스크 모델과 의사레이블 기반 데이터 증강 기법을 통해 AI 생성 이미지 탐지 및 생성 모델 식별 성능을 향상시키고, 'CT2' 대회에서 상위권을 차지한 결과를 제시합니다.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

이 논문은 20 개 이상의 프로그래밍 언어와 3,600 개 이상의 저장소에서 32,000 개 이상의 실행 가능한 소프트웨어 엔지니어링 (SWE) 태스크와 12 만 개 이상의 확장 데이터를 포함하는 대규모 언어 중립적 SWE 벤치마크인 'SWE-rebench V2'를 소개하며, 이를 통해 강화학습 기반 SWE 에이전트 훈련을 위한 재현 가능한 환경과 데이터셋을 제공합니다.

Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov + 1 more2026-03-02💬 cs.CL

LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

이 논문은 KL 발산 대신 직접적인 수용률 최적화를 목표로 하는 'LK 손실'을 제안하여, 다양한 크기의 모델과 도메인에서 스펙큘레이티브 디코딩의 수용 길이를 8~10%까지 향상시키고 구현의 용이성과 추가 비용 부재를 입증했습니다.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov + 3 more2026-03-02💬 cs.CL

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

The Astonishing Ability of Large Language Models to Parse Jabberwockified Language

이 논문은 대규모 언어 모델 (LLM) 이 무의미한 단어로 대체된 텍스트에서도 문법적 구조와 세계 지식을 활용해 원문의 의미를 놀라운 정확도로 복원할 수 있음을 보여주며, 이는 언어 처리에서 구문론과 어휘적 의미, 그리고 일반 지식이 긴밀하게 통합되어야 함을 시사합니다.

Gary Lupyan, Senyi Yang2026-03-02💬 cs.CL

Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language

이 논문은 25,006 개의 문장으로 구성된 네덜란드어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네덜란드어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다. *(참고: 원문 초록에 'Nepali(네팔어)'라고 명시되어 있으나, 번역 시 'Devanagari script(데바나가리 문자)'와 'Nepali(네팔어)'의 혼동을 방지하기 위해 'Nepali'를 '네팔어'로 정확히 번역했습니다. 위 문장에서는 '네덜란드어'가 아닌 '네팔어'로 수정하여 작성해야 합니다.)* **수정된 정확한 답변:** 이 논문은 25,006 개의 문장으로 구성된 네팔어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네팔어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다.

Nischal Karki, Bipesh Subedi, Prakash Poudyal + 2 more2026-03-02💬 cs.CL

EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates

이 논문은 18 세기 프랑스 백과전서에서 추출한 지리적 좌표의 정밀한 주석 데이터셋 (EDDA-Coordinata) 을 구축하고 이를 기반으로 학습된 트랜스포머 모델을 통해 고전 텍스트에서 좌표를 자동으로 추출 및 정규화하는 두 단계의 방법을 제안하며, 이를 다양한 언어와 도메인에서 검증한 결과를 제시합니다.

Ludovic Moncla, Pierre Nugues, Thierry Joliveau + 1 more2026-03-02💬 cs.CL

MemEmo: Evaluating Emotion in Memory Systems of Agents

이 논문은 대규모 언어 모델의 기억 시스템이 감정 정보를 처리하는 데 있어 한계가 있음을 규명하기 위해 감정 정보 추출, 업데이트, 질문 응답의 세 가지 차원을 평가하는 새로운 벤치마크와 HLME 데이터셋을 제안하고 있습니다.

Peng Liu, Zhen Tao, Jihao Zhao + 5 more2026-03-02💬 cs.CL

The GRADIEND Python Package: An End-to-End System for Gradient-Based Feature Learning

이 논문은 언어 모델의 사실적 및 반사실적 기울기를 기반으로 특징 방향을 학습하는 오픈소스 파이썬 패키지 'GRADIEND'를 소개하며, 데이터 생성부터 모델 재작성 및 평가에 이르는 통합 워크플로우를 제시합니다.

Jonathan Drechsel, Steffen Herbold2026-03-02💬 cs.CL

Dialect and Gender Bias in YouTube's Spanish Captioning System

이 논문은 유튜브의 자동 자막 시스템이 단일 스페인어 옵션만 제공함으로써 특정 방언과 성별에 따라 편향된 성능 차이를 보이며, 디지털 플랫폼의 알고리즘이 사용자의 다양성을 반영하도록 보정되어야 함을 입증합니다.

Iris Dania Jimenez, Christoph Kern2026-03-02💬 cs.CL

RewardUQ: A Unified Framework for Uncertainty-Aware Reward Models

이 논문은 인간 피드백의 한계로 인한 보상 모델의 인식적 불확실성을 체계적으로 평가하고 비교하기 위해 'RewardUQ'라는 통합 프레임워크를 제안하며, 모델 크기와 초기화가 성능에 가장 큰 영향을 미친다는 사실을 규명하고 오픈소스 패키지를 공개합니다.

Daniel Yang, Samuel Stante, Florian Redhardt + 5 more2026-03-02💬 cs.CL

Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving

이 논문은 디지털 트윈과 기계 학습을 결합한 데이터 기반 파이프라인을 통해 분산 LLM 어댑터 서빙 환경에서 요청 starvation 과 GPU 메모리 오류를 방지하면서 목표 워크로드를 지원하는 데 필요한 GPU 수를 최소화하여 효율성을 극대화하는 방법을 제안합니다.

Ferran Agullo, Joan Oliveras, Chen Wang + 5 more2026-03-02💬 cs.CL

Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis

이 논문은 추론 기능이 감정 분석 과제의 복잡도에 따라 성능에 상반된 영향을 미쳐 단순 작업에서는 오히려 성능을 저하시키지만 복잡한 작업에서는 향상시킨다는 것을 실증적으로 보여주며, 계산 비용 대비 효율성을 고려할 때 추론은 단순 작업보다는 복잡한 감정 인식 과제에 한정적으로 유용함을 밝힙니다.

Donghao Huang, Zhaoxia Wang2026-03-02💬 cs.CL

A Novel Hierarchical Multi-Agent System for Payments Using LLMs

이 논문은 기존 LLM 기반 에이전트들이 해결하지 못했던 결제 업무의 자동화 과제를 해결하기 위해, 대화형 결제 에이전트부터 감독 및 라우팅 에이전트까지의 계층적 구조를 통해 종단 간 결제 워크플로우를 구현한 최초의 다중 에이전트 시스템인 HMASP 를 제안하고 그 타당성을 입증합니다.

Joon Kiat Chua, Donghao Huang, Zhaoxia Wang2026-03-02💬 cs.CL

SongSong: A Time Phonograph for Chinese SongCi Music from Thousand of Years Away

이 논문은 고대 중국 송사 (SongCi) 음악의 리듬과 스타일을 복원하기 위해 고안된 최초의 음악 생성 모델 '송송 (SongSong)'과 대규모 데이터셋 'OpenSongSong'을 소개하며, 기존 모델들보다 우수한 성능을 입증합니다.

Jiajia Li, Jiliang Hu, Ziyi Pan + 4 more2026-03-02💬 cs.CL

Preference Packing: Efficient Preference Optimization for Large Language Models

이 논문은 동일한 입력 프롬프트에 대한 서로 다른 응답을 사용하는 선호도 최적화 (DPO 등) 훈련 시 중복 프롬프트의 어텐션 연산과 KV 캐시 메모리 사용을 줄여 훈련 시간을 최대 37% 단축하고 기존 최적화 기법과 결합 시 3.22 배의 속도 향상을 이루는 '선호도 패킹 (Preference Packing)' 기법을 제안합니다.

Jaekyung Cho2026-03-02💬 cs.CL

ARGUS: Seeing the Influence of Narrative Features on Persuasion in Argumentative Texts

이 논문은 온라인 논쟁에서 서사적 요소가 설득에 미치는 영향을 분석하기 위해 'ARGUS'라는 새로운 프레임워크와 'ChangeMyView' 코퍼스를 소개하며, 이를 통해 설득 성공에 영향을 미치는 구체적인 서사적 특성을 규명합니다.

Sara Nabhani, Federico Pianzola, Khalid Al-Khatib + 1 more2026-03-02💬 cs.CL

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

이 논문은 RLVR 환경에서 부분적으로 올바른 추론 경로를 폐기하지 않고 프로세스 보상 모델을 활용해 첫 번째 오류 단계를 정밀하게 수정함으로써 탐색 다양성을 확보하고 수학 및 일반화 추론 성능을 획기적으로 개선하는 새로운 프레임워크 'SCOPE'를 제안합니다.

Yanwei Ren, Haotian Zhang, Likang Xiao + 6 more2026-03-02💬 cs.CL

← 이전 다음 →