ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

이 논문은 영어 중심의 안전 평가에서 소외된 태국어와 태국 문화를 반영한 위험을 평가하기 위해 태국어 악성 프롬프트 1,954 개로 구성된 오픈소스 벤치마크 'ThaiSafetyBench'와 관련 분류기, 리더보드를 소개하고, 이를 통해 오픈소스 모델의 안전성 취약점과 문화적 맥락 공격의 높은 성공률을 규명했습니다.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

이 논문은 토큰 수준의 주석이 달린 데이터셋을 활용하여 XLM-RoBERTa 와 CRF 를 결합한 MUTEX 모델을 제안함으로써, 기존 문장 단위 분류의 한계를 극복하고 우르두어 독성 스팬 탐지 분야에서 최초의 지도 학습 베이스라인을 확립했다는 점을 강조합니다.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

이 논문은 과적합과 데이터 누출 문제를 해결하고 인간이 해결 가능한 추론 규칙을 보장하기 위해, 자연어 추론 체인과 부분 평가 코드를 갖춘 461 개의 인간 검증 작업 생성기 (ARC-TGI) 를 개발하여 ARC-AGI 벤치마크의 확장 가능한 데이터 샘플링과 통제된 평가를 가능하게 했음을 소개합니다.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

이 논문은 자동 입찰의 복잡성과 기존 방법의 한계를 해결하기 위해 추론과 행동을 계층적으로 분리하고, 언어와 수치 데이터를 융합하는 이중 임베딩 메커니즘과 환각을 줄이는 GQPO 오프라인 강화 미세조정 기법을 도입한 'LBM'을 제안하여 동적 광고 환경에서 뛰어난 일반화 성능과 효율적인 학습을 달성함을 보여줍니다.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

이 논문은 트랜스포머 모델이 유사한 속성을 가진 엔티티를 유사한 표현으로 인코딩하는 Feature Resemblance 메커니즘을 통해 유추 추론이 어떻게 발현되는지 이론적으로 증명하고, 학습 커리큘럼과 데이터 구조가 추론 능력에 미치는 영향을 15 억 파라미터 모델 실험을 통해 검증했습니다.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

이 논문은 PRM800K 기반의 C2-Faith 벤치마크를 통해 LLM 판정기가 연쇄 추론의 인과성과 포괄성이라는 두 가지 차원에서 얼마나 신뢰할 수 있는지를 평가하고, 작업 구성에 따른 성능 차이와 오류 탐지 및 국소화 간의 간극 등 판정기의 한계와 활용 가이드라인을 제시합니다.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

이 논문은 방글라데시의 42 개 소수 민족 언어 (전체 40 개 언어 중 14 개가 위기에 처함) 에 대해 체계적인 필드워크를 통해 수집된 85,792 개의 텍스트 항목과 약 107 시간의 음성 기록을 포함하는 최초의 국가 규모 다국어 클라우드 코퍼스인 'Multilingual Cloud Corpus'를 소개하고, 이를 통해 구어 중심의 '제로 리소스' 언어를 디지털화하여 언어 문서화, 저자원 NLP, 그리고 디지털 보존에 기여하는 방안을 논의합니다.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL