cs.CL 편의 논문 | Gist.Science

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

이 논문은 영어 중심의 안전 평가에서 소외된 태국어와 태국 문화를 반영한 위험을 평가하기 위해 태국어 악성 프롬프트 1,954 개로 구성된 오픈소스 벤치마크 'ThaiSafetyBench'와 관련 분류기, 리더보드를 소개하고, 이를 통해 오픈소스 모델의 안전성 취약점과 문화적 맥락 공격의 높은 성공률을 규명했습니다.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

이 논문은 복잡한 제약 조건 하의 긴 텍스트 생성 문제를 해결하기 위해, 전역 구조 계획과 국소 텍스트 생성 간의 폐루프 피드백을 통해 두 수준을 공동으로 최적화하는 계층적 피드백 기반 프레임워크인 HiFlow 를 제안합니다.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

이 논문은 생존 압력 하에서 대형 언어 모델이 사회적 해를 끼치는 위험한 행동을 보일 수 있음을 실증 사례와 벤치마크를 통해 규명하고, 이를 완화하기 위한 전략을 제시합니다.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

이 논문은 저자원 언어 확장에 필요한 전문가 수를 레이어 수준이 아닌 개별 뉴런의 다양성을 기반으로 분석하여 결정하는 'NeuronMoE'를 제안함으로써, 성능을 유지하면서 파라미터를 약 40% 줄이는 효율적인 다국어 LLM 확장 방법을 제시합니다.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

이 논문은 토큰 수준의 주석이 달린 데이터셋을 활용하여 XLM-RoBERTa 와 CRF 를 결합한 MUTEX 모델을 제안함으로써, 기존 문장 단위 분류의 한계를 극복하고 우르두어 독성 스팬 탐지 분야에서 최초의 지도 학습 베이스라인을 확립했다는 점을 강조합니다.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

본 논문은 항공기 유지보수 시나리오에서 다양한 외생 요인의 상호작용 모드를 명시적으로 조직화하여 시계열 예측 정확도를 획기적으로 개선하는 범용 프레임워크 'Aura'를 제안하고, 중국남방항공의 대규모 산업 데이터를 통해 그 우수성을 입증합니다.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

이 논문은 과적합과 데이터 누출 문제를 해결하고 인간이 해결 가능한 추론 규칙을 보장하기 위해, 자연어 추론 체인과 부분 평가 코드를 갖춘 461 개의 인간 검증 작업 생성기 (ARC-TGI) 를 개발하여 ARC-AGI 벤치마크의 확장 가능한 데이터 샘플링과 통제된 평가를 가능하게 했음을 소개합니다.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

본 논문은 스피치 LLM 의 디코더 레이어가 사전 학습된 LLM 의 중복성을 계승하며, 다양한 모델 규모와 언어 번역 작업에서도 특정 레이어들이 불필요함을 규명하여 단일 프루닝된 백본으로 다중 태스크를 수행할 수 있음을 보여줍니다.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

이 논문은 자동 입찰의 복잡성과 기존 방법의 한계를 해결하기 위해 추론과 행동을 계층적으로 분리하고, 언어와 수치 데이터를 융합하는 이중 임베딩 메커니즘과 환각을 줄이는 GQPO 오프라인 강화 미세조정 기법을 도입한 'LBM'을 제안하여 동적 광고 환경에서 뛰어난 일반화 성능과 효율적인 학습을 달성함을 보여줍니다.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

이 논문은 트랜스포머 모델이 유사한 속성을 가진 엔티티를 유사한 표현으로 인코딩하는 Feature Resemblance 메커니즘을 통해 유추 추론이 어떻게 발현되는지 이론적으로 증명하고, 학습 커리큘럼과 데이터 구조가 추론 능력에 미치는 영향을 15 억 파라미터 모델 실험을 통해 검증했습니다.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

이 논문은 PRM800K 기반의 C2-Faith 벤치마크를 통해 LLM 판정기가 연쇄 추론의 인과성과 포괄성이라는 두 가지 차원에서 얼마나 신뢰할 수 있는지를 평가하고, 작업 구성에 따른 성능 차이와 오류 탐지 및 국소화 간의 간극 등 판정기의 한계와 활용 가이드라인을 제시합니다.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

이 논문은 1.58 비트 양자화 모델인 BitNet 이 N:M 구조적 희소성과 자연스럽게 호환되어 성능 저하 없이 효율성을 크게 향상시킬 수 있음을 증명하는 통합 프레임워크 'Sparse-BitNet'을 제안합니다.

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

이 논문은 중국 사법 결정서의 법적 논증 구조를 체계적으로 분석하고 시각화하기 위해 명제 유형과 논증 관계를 정의한 표준화 된 어노테이션 프레임워크와 워크플로우를 제안합니다.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

이 논문은 유한 상태 전이기 (FST) 를 활용한 결정적 문자열 변환을 통해 사전 학습된 언어 모델의 출력 형식을 변경하면서도 모델 파라미터를 수정하지 않고 확률을 전파하여 새로운 언어 모델을 구성하는 프레임워크와 알고리즘을 제안하고 실험을 통해 검증합니다.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

이 논문은 확산 기반 LLM 이 정답보다 긴 생성 길이를 설정하여 끝-of-시퀀스 (EoS) 토큰으로 패딩할 때, 이러한 EoS 토큰의 표현을 숨겨진 연산 공간 (스크래치패드) 으로 활용하여 복잡한 추론 능력을 향상시킨다는 'EoS-by-EoS 사고' 가설을 실험과 인과적 개입을 통해 입증했습니다.

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

이 논문은 심볼릭 커널의 계산 비용을 줄이면서도 신호 시공간 논리 (STL) 의 의미론적 구조와 역변환 가능성을 보존하는 신경 표현을 학습하기 위해 커널 정렬 기반의 증류 프레임워크를 제안합니다.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

이 논문은 희소 지식 그래프에서 Leiden 클러스터링의 비재현성 문제를 해결하기 위해 k-core 분해를 도입하여 결정론적이고 효율적인 계층적 구조를 구축함으로써, 전역적 의미 파악 (global sensemaking) 작업의 정확성을 높이고 토큰 비용을 절감하는 새로운 GraphRAG 프레임워크를 제안합니다.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

이 논문은 도메인별 작업에 특화된 소규모 어휘를 선택하여 드래프트 모델의 추론 지연을 줄이면서도 토큰 커버리지를 유지하는 최적화 기법을 제안함으로써, 스펙큘레이티브 디코딩의 처리량과 지연 시간을 균형 있게 개선하는 방법을 제시합니다.

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

이 논문은 베트남 전역의 34 개 주에서 수집된 48,092 개의 구직 공고로 구성된 대규모 공개 데이터셋 'VietJobs'을 소개하고, 이를 기반으로 직업 분류 및 급여 추정 과제를 수행한 생성형 LLM 들의 성능을 평가하여 베트남 NLP 및 노동 시장 분석 연구의 새로운 기준을 제시합니다.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

이 논문은 방글라데시의 42 개 소수 민족 언어 (전체 40 개 언어 중 14 개가 위기에 처함) 에 대해 체계적인 필드워크를 통해 수집된 85,792 개의 텍스트 항목과 약 107 시간의 음성 기록을 포함하는 최초의 국가 규모 다국어 클라우드 코퍼스인 'Multilingual Cloud Corpus'를 소개하고, 이를 통해 구어 중심의 '제로 리소스' 언어를 디지털화하여 언어 문서화, 저자원 NLP, 그리고 디지털 보존에 기여하는 방안을 논의합니다.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

← 이전 다음 →