CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing

이 논문은 중국어 전문 글쓰기에서 언어적 오류와 사실적 오류를 통합적으로 수정하는 새로운 태스크인 CLFEC 를 제안하고, 이를 위한 다도메인 데이터셋을 구축하여 대규모 언어 모델 기반의 다양한 수정 패러다임을 체계적으로 평가하고 산업 현장 적용을 위한 실증적 통찰을 제공합니다.

Jian Kai, Zidong Zhang, Jiwen Chen + 5 more2026-03-02💬 cs.CL

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

이 논문은 20 개 이상의 프로그래밍 언어와 3,600 개 이상의 저장소에서 32,000 개 이상의 실행 가능한 소프트웨어 엔지니어링 (SWE) 태스크와 12 만 개 이상의 확장 데이터를 포함하는 대규모 언어 중립적 SWE 벤치마크인 'SWE-rebench V2'를 소개하며, 이를 통해 강화학습 기반 SWE 에이전트 훈련을 위한 재현 가능한 환경과 데이터셋을 제공합니다.

Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov + 1 more2026-03-02💬 cs.CL

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language

이 논문은 25,006 개의 문장으로 구성된 네덜란드어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네덜란드어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다. *(참고: 원문 초록에 'Nepali(네팔어)'라고 명시되어 있으나, 번역 시 'Devanagari script(데바나가리 문자)'와 'Nepali(네팔어)'의 혼동을 방지하기 위해 'Nepali'를 '네팔어'로 정확히 번역했습니다. 위 문장에서는 '네덜란드어'가 아닌 '네팔어'로 수정하여 작성해야 합니다.)* **수정된 정확한 답변:** 이 논문은 25,006 개의 문장으로 구성된 네팔어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네팔어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다.

Nischal Karki, Bipesh Subedi, Prakash Poudyal + 2 more2026-03-02💬 cs.CL

EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates

이 논문은 18 세기 프랑스 백과전서에서 추출한 지리적 좌표의 정밀한 주석 데이터셋 (EDDA-Coordinata) 을 구축하고 이를 기반으로 학습된 트랜스포머 모델을 통해 고전 텍스트에서 좌표를 자동으로 추출 및 정규화하는 두 단계의 방법을 제안하며, 이를 다양한 언어와 도메인에서 검증한 결과를 제시합니다.

Ludovic Moncla, Pierre Nugues, Thierry Joliveau + 1 more2026-03-02💬 cs.CL

Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis

이 논문은 추론 기능이 감정 분석 과제의 복잡도에 따라 성능에 상반된 영향을 미쳐 단순 작업에서는 오히려 성능을 저하시키지만 복잡한 작업에서는 향상시킨다는 것을 실증적으로 보여주며, 계산 비용 대비 효율성을 고려할 때 추론은 단순 작업보다는 복잡한 감정 인식 과제에 한정적으로 유용함을 밝힙니다.

Donghao Huang, Zhaoxia Wang2026-03-02💬 cs.CL

A Novel Hierarchical Multi-Agent System for Payments Using LLMs

이 논문은 기존 LLM 기반 에이전트들이 해결하지 못했던 결제 업무의 자동화 과제를 해결하기 위해, 대화형 결제 에이전트부터 감독 및 라우팅 에이전트까지의 계층적 구조를 통해 종단 간 결제 워크플로우를 구현한 최초의 다중 에이전트 시스템인 HMASP 를 제안하고 그 타당성을 입증합니다.

Joon Kiat Chua, Donghao Huang, Zhaoxia Wang2026-03-02💬 cs.CL

Preference Packing: Efficient Preference Optimization for Large Language Models

이 논문은 동일한 입력 프롬프트에 대한 서로 다른 응답을 사용하는 선호도 최적화 (DPO 등) 훈련 시 중복 프롬프트의 어텐션 연산과 KV 캐시 메모리 사용을 줄여 훈련 시간을 최대 37% 단축하고 기존 최적화 기법과 결합 시 3.22 배의 속도 향상을 이루는 '선호도 패킹 (Preference Packing)' 기법을 제안합니다.

Jaekyung Cho2026-03-02💬 cs.CL

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

이 논문은 RLVR 환경에서 부분적으로 올바른 추론 경로를 폐기하지 않고 프로세스 보상 모델을 활용해 첫 번째 오류 단계를 정밀하게 수정함으로써 탐색 다양성을 확보하고 수학 및 일반화 추론 성능을 획기적으로 개선하는 새로운 프레임워크 'SCOPE'를 제안합니다.

Yanwei Ren, Haotian Zhang, Likang Xiao + 6 more2026-03-02💬 cs.CL