From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

이 논문은 사회적 과학 이론과 귀납적 추론을 기반으로 한 신경-상징적 접근법을 제안하여, 기존 대규모 언어 모델이 수행하기 어려운 '우리'에서 '나'로의 서사 전환 과제를 성공적으로 해결하고 원본 메시지의 충실도를 유지하면서도 서사적 일관성을 크게 향상시켰음을 보여줍니다.

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following

이 논문은 인간 평가 패턴과 부합하는 형식적 속성과 독립성 제약을 적용하여 지시 사항을 유형별 술어로 자동 분해하고 만족도를 평가하는 대화형 LLM 지시 수행 평가 프레임워크인 DIALEVAL 을 제안하며, 이를 통해 기존 방법 대비 오류를 26.45% 줄이고 인간 판단과의 상관관계를 크게 향상시켰음을 보여줍니다.

Nardine Basta, Dali Kaafar2026-03-05🤖 cs.AI

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

이 논문은 안전성 정렬 과정에서 발생하는 과도한 거절 (over-refusal) 문제를 해결하기 위해, 실제 유해한 콘텐츠와 겉보기에 유해한 콘텐츠를 명확히 구분하는 '대조적 정제 (Contrastive Refinement)' 기법을 도입하여 모델의 유용성과 안전성을 동시에 향상시키는 새로운 정렬 단계를 제안합니다.

Yuxiao Lu, Lin Xu, Yang Sun + 2 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

이 논문은 언어 모델의 잔여 스트림 (residual stream) 내 의미 표현을 기반으로 최대 신장 트리를 구축하여 레이어 간 구조적 유사성을 정량화하는 분석 프레임워크 'StructLens'를 제안하고, 기존 코사인 유사도와 구별되는 구조적 패턴을 발견하여 레이어 가지치기 등 실제 과제에 유용함을 입증합니다.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

본 논문은 13 개의 다양한 크기의 대규모 언어 모델을 대상으로 수학적 추론 작업에서 중간 추론 단계에 가해진 5 가지 유형의 교란 (MathError, UnitConversion 등) 이 모델 성능에 미치는 영향을 실증적으로 분석하여, 교란 유형과 모델 규모에 따라 취약성이 이질적으로 나타난다는 사실을 규명했습니다.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

이 논문은 대학원 수준의 선형대수, 수치최적화, 벡터 미적분, 확률 및 과학적 컴퓨팅을 다루는 1,500 개의 전문가 제작 객관식 문제로 구성된 새로운 벤치마크 데이터셋 'CompMath-MCQ'를 소개하고, 이를 통해 최신 대규모 언어 모델 (LLM) 의 고급 계산 수학 추론 능력이 여전히 큰 도전 과제로 남아 있음을 보여줍니다.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

이 논문은 인터넷 연결이 제한된 교육 환경을 위해 저사양 CPU 장치에서 완전히 오프라인으로 작동하며 자동 하드웨어 인식 모델 선택과 교육적 응답 제어를 통해 디지털 격차를 해소하는 '아라파이 (Arapai)'라는 AI 챗봇 아키텍처를 제안하고 그 유효성을 검증합니다.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL