TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

이 논문은 테스트 시 학습 중 발생하는 신뢰할 수 없는 의사레이블과 비효율적인 적응 문제를 해결하기 위해, 실패한 추론 경로를 분석하고 표적 변형 문제를 생성하는 '교사' 역할과 문제 해결을 수행하는 '학생' 역할이 교차하는 자기반성 기반의 TTSR 프레임워크를 제안하여 대형 언어 모델의 추론 능력을 지속적으로 향상시키는 방법을 제시합니다.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

이 논문은 10 개의 상용 대규모 언어 모델 (LLM) 을 대상으로 학술 인용 허위 생성을 광범위하게 분석하여 모델과 도메인에 따른 할루시네이션 발생률 차이를 규명하고, 다중 모델 합의 및 반복 검증 같은 실용적 필터와 외부 데이터베이스 없이도 작동하는 경량 분류기를 통해 위조 인용을 탐지하는 방법을 제시합니다.

MZ Naser2026-03-05💬 cs.CL

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

이 논문은 TOON 이 인-도메인 생성 작업에서 토큰 효율성과 정확도 면에서 유망한 결과를 보이지만, 짧은 컨텍스트에서는 프롬프트 오버헤드로 인해 이점이 감소하며, 특히 단순 구조에서는 제약 디코딩을 통한 JSON 생성이 TOON 보다 더 낮은 토큰 사용량을 보여 TOON 의 효율성은 특정 임계점을 넘어 누적된 구문 절감 효과가 프롬프트 오버헤드를 상쇄할 때 비로소 실현된다는 것을 밝혔습니다.

Ivan Matveev2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

이 논문은 LLM 기반의 시맨틱 분석과 VARK 학습 스타일 인지 프로파일링을 결합한 하이브리드 프레임워크를 제안하여, 사용자 및 아이템의 상호작용 데이터가 부족한 콜드 스타트 문제를 해결하고 초기 접촉 단계에서도 개인화되고 설명 가능한 추천을 가능하게 합니다.

Nikita Zmanovskii2026-03-05💬 cs.CL

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

이 논문은 EEG 신호에서 자연어를 해독할 때 발생하는 의미 편향과 신호 무시 문제를 해결하기 위해, 감성·주제·길이·놀라움이라는 네 가지 분리된 의미 목표를 통해 신경 입력에 기반한 생성을 강제하는 'SemKey' 프레임워크를 제안하고, 기존 BLEU 점수의 한계를 넘어 N-way 검색 정확도 및 프라체트 거리와 같은 새로운 평가 지표를 통해 모델의 성능을 입증합니다.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

이 논문은 외부 도구에 의존하지 않고 대규모 언어 모델의 내재적 프롬프트 노이즈 저항력을 향상시키기 위해 대비 학습 기반 역 선호도 최적화 (CoIPO) 방법을 제안하고, 이를 검증하기 위해 NoisyPromptBench 벤치마크를 구축하여 기존 최첨단 기법보다 뛰어난 성능을 입증했습니다.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

이 논문은 밈의 의미와 독성 (toxicity) 을 포괄적으로 이해하기 위한 새로운 의미론적 프레임워크와 이를 기반으로 생성된 609 개의 질문 - 답변 쌍으로 구성된 M-QUEST 벤치마크를 제안하고, 다양한 오픈소스 대형 언어 모델의 성능을 평가하여 밈 해석에 있어 지시 튜닝과 추론 능력이 중요함을 입증했습니다.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI