cs.CL 편의 논문 | Gist.Science

Multi-Agent Causal Reasoning for Suicide Ideation Detection Through Online Conversations

이 논문은 온라인 대화에서 자살 사고를 탐지하기 위해 인지 평가 이론을 기반으로 한 반사실적 사용자 반응을 생성하는 추론 에이전트와 프론트 도어 조정 전략을 통해 숨겨진 편향을 완화하는 편향 인식 의사결정 에이전트를 협력적으로 활용하는 다중 에이전트 인과 추론 (MACR) 프레임워크를 제안합니다.

Jun Li, Xiangmeng Wang, Haoyang Li + 6 more2026-03-02💬 cs.CL

BRIDGE the Gap: Mitigating Bias Amplification in Automated Scoring of English Language Learners via Inter-group Data Augmentation

이 논문은 영어 학습자 (ELL) 의 자동 채점에서 발생하는 편향 증폭 문제를 해결하기 위해, 풍부한 비-ELL 고득점 샘플의 내용과 ELL 의 언어적 패턴을 결합한 가짜 데이터를 생성하는 'BRIDGE' 프레임워크를 제안하고, 이를 통해 California 과학 시험 (CAST) 데이터에서 편향을 효과적으로 완화하면서도 전체 채점 성능을 유지함을 입증합니다.

Yun Wang, Xuansheng Wu, Jingyuan Huang + 3 more2026-03-02💬 cs.CL

LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering

이 논문은 장문 질문 답변 (LFQA) 평가를 위해 130 만 개의 인간 선호도 데이터와 9 가지 평가 기준을 제안하고, 이를 기반으로 한 간단한 선형 모델이 최첨단 LLM 평가자와 유사한 성능을 보이며 LLM 평가자의 다양한 편향을 드러낸다는 점을 소개합니다.

Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury2026-03-02💬 cs.CL

LLM-Driven Multi-Turn Task-Oriented Dialogue Synthesis for Realistic Reasoning

이 논문은 기존 벤치마크의 한계를 극복하고 실제적인 논리적 추론 능력을 평가하기 위해, 삼단계 최적화를 활용하여 현실적인 다턴 태스크 지향 대화와 추론 작업을 생성하는 LLM 기반 프레임워크를 제안합니다.

Yu Zhu, Kai Yang2026-03-02💬 cs.CL

TRIZ-RAGNER: A Retrieval-Augmented Large Language Model for TRIZ-Aware Named Entity Recognition in Patent-Based Contradiction Mining

이 논문은 기존 방법론의 한계를 극복하고 특허 기반 모순 마이닝의 정확도를 향상시키기 위해 TRIZ 지식 베이스 검색을 통합한 새로운 대규모 언어 모델 프레임워크인 TRIZ-RAGNER 을 제안하고, PaTRIZ 데이터셋 실험을 통해 기존 모델 대비 우수한 성능을 입증합니다.

Zitong Xu, Yuqing Wu, Yue Zhao2026-03-02💬 cs.CL

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

이 논문은 MLLM 의 계층적 특성을 반영하여 시각 토큰을 90% 까지 압축하면서도 성능을 유지하고 학습 속도를 1.72 배 가속화하는 새로운 효율성 프레임워크 'HiDrop'을 제안합니다.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning

이 논문은 정적 데이터셋의 한계를 극복하고 LLM 의 진화하는 추론 능력을 평가하기 위해, 자율 에이전트들이 문제를 생성·검증·해결하는 동적 프로토콜을 도입하여 텍스트 이상 탐지 형식을 통해 기존 벤치마크가 놓친 추론 오류를 체계적으로 포착하는 새로운 평가 패러다임을 제안합니다.

Seungdong Yoa, Sanghyu Yoon, Suhee Yoon + 4 more2026-03-02💬 cs.CL

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

이 논문은 시각적 객체 추적의 계산 비용을 줄이면서도 정확도를 유지하기 위해 검색 영역, 동적 템플릿, 정적 템플릿을 통합적으로 압축하는 새로운 단일 토큰 가지치기 프레임워크인 UTPTrack 을 제안하고, 다양한 벤치마크에서 기존 방법보다 뛰어난 성능과 효율성을 입증합니다.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

Structured Prompt Optimization for Few-Shot Text Classification via Semantic Alignment in Latent Space

이 논문은 소량 데이터 환경에서의 텍스트 분류 성능을 향상시키기 위해, 다차원 의미 요인으로 구성된 구조화된 프롬프트와 잠재 공간 내 의미 정렬 메커니즘을 도입하여 의미적 혼란을 해소하고 라벨 불명확성을 개선하는 최적화 프레임워크를 제안합니다.

Jiasen Zheng, Zijun Zhou, Huajun Zhang + 3 more2026-03-02💬 cs.CL

Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding

이 논문은 확산 기반 대규모 언어 모델 (dLLM) 의 이론적 병렬성과 실제 성능 간의 격차를 해소하기 위해, 분할 (Divide) 과 정복 (Conquer) 단계를 반복하고 마지막에 정제 단계를 거치는 적응형 병렬 디코딩 기법인 'DiCo'를 제안하여 추론 속도를 크게 향상시키면서도 생성 품질을 유지하는 방법을 제시합니다.

Xiangzhong Luo, Yilin An, Zhicheng Yu + 2 more2026-03-02💬 cs.CL

GLUScope: A Tool for Analyzing GLU Neurons in Transformer Language Models

이 논문은 SwiGLU 와 같은 게이트 활성화 함수를 사용하는 최신 트랜스포머 언어 모델의 해석 가능성을 높이기 위해, 각 뉴런의 게이트와 입력 활성화의 네 가지 부호 조합에 따른 텍스트 예시와 발생 빈도를 분석하는 오픈소스 도구인 GLUScope 를 제안합니다.

Sebastian Gerstner, Hinrich Schütze2026-03-02💬 cs.CL

CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing

이 논문은 중국어 전문 글쓰기에서 언어적 오류와 사실적 오류를 통합적으로 수정하는 새로운 태스크인 CLFEC 를 제안하고, 이를 위한 다도메인 데이터셋을 구축하여 대규모 언어 모델 기반의 다양한 수정 패러다임을 체계적으로 평가하고 산업 현장 적용을 위한 실증적 통찰을 제공합니다.

Jian Kai, Zidong Zhang, Jiwen Chen + 5 more2026-03-02💬 cs.CL

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

이 논문은 BERT 와 CLIP 을 활용한 멀티모달 멀티태스크 모델과 의사레이블 기반 데이터 증강 기법을 통해 AI 생성 이미지 탐지 및 생성 모델 식별 성능을 향상시키고, 'CT2' 대회에서 상위권을 차지한 결과를 제시합니다.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

이 논문은 20 개 이상의 프로그래밍 언어와 3,600 개 이상의 저장소에서 32,000 개 이상의 실행 가능한 소프트웨어 엔지니어링 (SWE) 태스크와 12 만 개 이상의 확장 데이터를 포함하는 대규모 언어 중립적 SWE 벤치마크인 'SWE-rebench V2'를 소개하며, 이를 통해 강화학습 기반 SWE 에이전트 훈련을 위한 재현 가능한 환경과 데이터셋을 제공합니다.

Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov + 1 more2026-03-02💬 cs.CL

LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

이 논문은 KL 발산 대신 직접적인 수용률 최적화를 목표로 하는 'LK 손실'을 제안하여, 다양한 크기의 모델과 도메인에서 스펙큘레이티브 디코딩의 수용 길이를 8~10%까지 향상시키고 구현의 용이성과 추가 비용 부재를 입증했습니다.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov + 3 more2026-03-02💬 cs.CL

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

The Astonishing Ability of Large Language Models to Parse Jabberwockified Language

이 논문은 대규모 언어 모델 (LLM) 이 무의미한 단어로 대체된 텍스트에서도 문법적 구조와 세계 지식을 활용해 원문의 의미를 놀라운 정확도로 복원할 수 있음을 보여주며, 이는 언어 처리에서 구문론과 어휘적 의미, 그리고 일반 지식이 긴밀하게 통합되어야 함을 시사합니다.

Gary Lupyan, Senyi Yang2026-03-02💬 cs.CL

Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language

이 논문은 25,006 개의 문장으로 구성된 네덜란드어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네덜란드어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다. *(참고: 원문 초록에 'Nepali(네팔어)'라고 명시되어 있으나, 번역 시 'Devanagari script(데바나가리 문자)'와 'Nepali(네팔어)'의 혼동을 방지하기 위해 'Nepali'를 '네팔어'로 정확히 번역했습니다. 위 문장에서는 '네덜란드어'가 아닌 '네팔어'로 수정하여 작성해야 합니다.)* **수정된 정확한 답변:** 이 논문은 25,006 개의 문장으로 구성된 네팔어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네팔어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다.

Nischal Karki, Bipesh Subedi, Prakash Poudyal + 2 more2026-03-02💬 cs.CL

EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates

이 논문은 18 세기 프랑스 백과전서에서 추출한 지리적 좌표의 정밀한 주석 데이터셋 (EDDA-Coordinata) 을 구축하고 이를 기반으로 학습된 트랜스포머 모델을 통해 고전 텍스트에서 좌표를 자동으로 추출 및 정규화하는 두 단계의 방법을 제안하며, 이를 다양한 언어와 도메인에서 검증한 결과를 제시합니다.

Ludovic Moncla, Pierre Nugues, Thierry Joliveau + 1 more2026-03-02💬 cs.CL

MemEmo: Evaluating Emotion in Memory Systems of Agents

이 논문은 대규모 언어 모델의 기억 시스템이 감정 정보를 처리하는 데 있어 한계가 있음을 규명하기 위해 감정 정보 추출, 업데이트, 질문 응답의 세 가지 차원을 평가하는 새로운 벤치마크와 HLME 데이터셋을 제안하고 있습니다.

Peng Liu, Zhen Tao, Jihao Zhao + 5 more2026-03-02💬 cs.CL

← 이전 다음 →