DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

이 논문은 다양한 추론 문제의 난이도와 불확실성을 고려하여 일관된 답변이 높은 샘플에는 지도 미세조정을, 낮은 샘플에는 일관성 정규화를 적용한 강화학습을 동적으로 수행함으로써 추론 성능을 효율적으로 향상시키는 새로운 테스트 시간 적응 프레임워크인 DiSCTT 를 제안합니다.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

이 논문은 Transformer 아키텍처의 사전 학습 안정성과 수렴 속도를 개선하기 위해, 초기 레이어가 먼저 학습되도록 레이어별 잔차에 점진적으로 가중치를 부여하는 'Progressive Residual Warmup(ProRes)' 기법을 제안하고, 이를 통해 학습 안정화, 빠른 수렴, 그리고 향상된 일반화 성능을 달성했음을 입증합니다.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

본 논문은 대규모 오픈소스 AI 모델이 외부에서 주입된 표현을 탐지할 때, 입력의 비정상성을 추론하는 확률 매칭과 내부 상태에 대한 직접적 접근이라는 두 가지 분리된 메커니즘을 사용하며, 후자는 발생 사실을 인지하지만 구체적인 의미 내용을 식별하지 못하는 내용 무관성 특성을 가진다는 것을 규명했습니다.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

이 논문은 다양한 언어 모델과 프롬프트 전략을 효과적으로 통합하기 위해 ff-앙상블 분포를 정의하고, 불일치하는 어휘를 가진 모델들을 공통 문자 공간에서 샘플링할 수 있는 바이트 단위 순차 몬테 카를로 (SMC) 알고리즘을 제안하여 기존 확률 평균 방식보다 우수한 성능을 달성하는 통일된 프레임워크를 제시합니다.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

이 논문은 협력적 구축 작업을 통해 다양한 정보와 지식을 가진 참여자들 간의 공통 기반 (common ground) 형성을 연구하기 위해 분산 부분 정보 퍼즐 (DPIP) 과 이를 위한 멀티모달 데이터셋을 제안하고, 최신 대형 언어 모델 (LLM) 과 동적 인식 논리 (DEL) 기반 파이프라인을 비교 평가하여 LLM 이 현재 다중 모달 상호작용에서의 신념 상태 추적에 어려움을 겪음을 보여줍니다.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

이 논문은 비대칭 하드웨어 확장 특성을 보이는 블랙웰 (Blackwell) 아키텍처의 병목 현상을 해결하기 위해 알고리즘과 커널 파이프라인을 공동 설계한 'FlashAttention-4'를 제안하며, CuTe-DSL 기반의 효율적인 구현을 통해 B200 GPU 에서 cuDNN 대비 최대 1.3 배, Triton 대비 2.7 배의 성능 향상을 달성함을 보여줍니다.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

이 논문은 답이 없는 질문에 대한 불확실성을 해결하고 저자원 언어 환경에서 강건한 성능을 입증하기 위해 방글라데시 국가 교육과정 교재에서 추출한 대규모 답변 가능/불가능 균형 데이터셋인 NCTB-QA 를 제안하고, 이를 통해 BERT 등 트랜스포머 기반 모델의 미세 조정 효과를 검증합니다.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

이 논문은 중국 개발사의 검열된 오픈 가중치 LLM 을 자연스러운 비밀 지식 유발 실험실로 활용하여, 다양한 진실성 유도 및 거짓 탐지 기법의 효과를 평가하고 검열된 모델이 자체 응답을 분류하는 방식이 상한선에 근접한 성능을 보이며 검열되지 않은 최첨단 모델에도 전이됨을 밝혔습니다.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI