WAXAL: A Large-Scale Multilingual African Language Speech Corpus

이 논문은 24 개 아프리카 언어의 1 억 2,500 만 명 이상의 화자를 포괄하며 자동 음성 인식 (ASR) 및 텍스트 음성 변환 (TTS) 을 위한 대규모 공개 음성 데이터셋 'WAXAL'을 소개하고, 데이터 수집 방법론과 윤리적 고려사항을 논의하여 아프리카 언어 기술의 디지털 격차 해소를 목표로 합니다.

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi + 40 more2026-03-03⚡ eess

Online Causal Kalman Filtering for Stable and Effective Policy Optimization

이 논문은 토큰 수준의 중요도 샘플링 비율의 높은 분산으로 인한 정책 최적화의 불안정성을 해결하기 위해, 과거 토큰의 상태에 기반하여 오프라인으로 추정된 중요도 비율을 칼만 필터링을 통해 실시간으로 보정하는 '온라인 인과적 칼만 필터링 기반 정책 최적화 (KPO)' 방법을 제안하고 수학 추론 작업에서 뛰어난 성능을 입증합니다.

Shuo He, Lang Feng, Xin Cheng + 2 more2026-03-03💬 cs.CL

Are LLMs Ready to Replace Bangla Annotators?

본 논문은 17 개의 대형 언어 모델 (LLM) 을 대상으로 방글라어 혐오 발언 태깅 작업을 수행한 결과, 모델 규모가 커진다고 해서 주석 품질이 향상되는 것은 아니며 오히려 편향과 불안정성이 발견되어 저자원 언어의 민감한 태스크에서 LLM 을 자동 주석가로 사용하기 전에 신중한 평가가 필요함을 시사합니다.

Md. Najib Hasan, Touseef Hasan, Souvika Sarkar2026-03-03💬 cs.CL

From Global to Local: Learning Context-Aware Graph Representations for Document Classification and Summarization

이 논문은 동적 슬라이딩 윈도우 어텐션 모듈을 활용하여 문장 간 국소 및 중거리 의미 의존성과 구조적 관계를 포착하는 데이터 기반 그래프 문서 표현 구축 방법을 제안하며, 이를 통해 기존 접근법보다 낮은 계산 비용으로 문서 분류에서 경쟁력 있는 성능을 달성하고 추출형 문서 요약에 대한 잠재력을 탐색했습니다.

Ruangrin Ldallitsakool, Margarita Bugueño, Gerard de Melo2026-03-03💬 cs.CL