Self-Anchoring Calibration Drift in Large Language Models: How Multi-Turn Conversations Reshape Model Confidence

이 논문은 다중 턴 대화에서 LLM 이 자신의 이전 출력에 기반할 때 모델마다 다른 방식으로 신뢰도 보정 오차가 변화하는 '자기 앵커링 보정 드리프트 (SACD)' 현상을 실증적으로 규명하고, 특히 클로드가 신뢰도 하락을, GPT 는 개방형 영역에서 오차 증가를, 지미는 자연스러운 보정 개선이 억제되는 양상을 보인다고 보고합니다.

Harshavardhan2026-03-03💬 cs.CL

Linking Knowledge to Care: Knowledge Graph-Augmented Medical Follow-Up Question Generation

이 논문은 대규모 언어 모델의 의료 도메인 지식 한계를 구조화된 지식 그래프와 능동적 인-컨텍스트 학습을 통해 보완하여, 선진단 평가 시 환자에게 적합한 후속 질문을 생성하는 'KG-Followup' 모델을 제안하고 기존 최첨단 방법보다 재현율에서 5~8% 향상된 성능을 입증했습니다.

Liwen Sun, Xiang Yu, Ming Tan + 4 more2026-03-03💬 cs.CL

Efficient Extractive Summarization with MAMBA-Transformer Hybrids for Low-Resource Scenarios

이 논문은 저자원 환경에서 긴 문서의 요약 시 발생하는 계산 병목 현상을 해결하기 위해 트랜스포머의 의미적 강점과 Mamba 의 선형 시간 처리 능력을 결합한 최초의 하이브리드 추출형 요약 모델을 제안하며, 다양한 도메인에서 기존 모델 대비 ROUGE 점수 향상과 추론 속도 개선을 입증했습니다.

Nisrine Ait Khayi2026-03-03💬 cs.CL

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data

이 논문은 10 년 이상의 개인 메시징 데이터를 기반으로 다양한 LLM 시뮬레이션 기법을 평가한 결과, 친분 있는 지인에게는 현재 기술이 '개인 튜링 테스트'를 통과하지 못하지만, 언어 스타일과 개인적 의견에 따라 파인튜닝과 검색/메모리 기반 접근법 간에 명확한 성능 trade-off 가 존재함을 규명했습니다.

Minghao Guo, Ziyi Ye, Wujiang Xu + 3 more2026-03-03💬 cs.CL

Catalyst-Agent: Autonomous heterogeneous catalyst screening and optimization with an LLM Agent

이 논문은 LLM 기반의 자율 에이전트 'Catalyst-Agent'가 대규모 재료 데이터베이스를 탐색하고 구조를 수정하며 흡착 에너지를 계산하는 폐쇄 루프 워크플로우를 통해 산소, 질소, 이산화탄소 환원 반응과 같은 핵심 촉매 반응을 효율적으로 선별하고 최적화하여 과학적 발견을 가속화한다는 것을 보여줍니다.

Achuth Chandrasekhar, Janghoon Ock, Amir Barati Farimani2026-03-03💬 cs.CL

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

이 논문은 실제 췌장암 환자 질문과 전문가 평가 기준을 기반으로 한 벤치마크 'PanCanBench'를 개발하여 다양한 대규모 언어 모델의 임상적 완전성, 사실성, 그리고 웹 검색 통합 효과를 평가하고, 최신 모델이 반드시 사실 오류를 줄이는 것은 아니며 AI 생성 평가 기준이 점수를 부풀릴 수 있음을 밝혔습니다.

Yimin Zhao, Sheela R. Damle, Simone E. Dekker + 13 more2026-03-03💬 cs.CL

Constructing Synthetic Instruction Datasets for Improving Reasoning in Domain-Specific LLMs: A Case Study in the Japanese Financial Domain

이 논문은 도메인별 전문 용어를 기반으로 고품질의 합성 지시 데이터 (CoT 포함) 를 구축하는 일반적 방법을 제안하고, 이를 일본 금융 도메인에 적용하여 95 억 토큰 규모의 데이터셋을 생성한 결과, 베이스라인 모델 대비 금융 벤치마크 성능이 향상됨을 입증하고 관련 모델과 데이터를 오픈소스로 공개했습니다.

Yuma Okochi, Fabio Milentiansen Sim, Tomoyasu Okada2026-03-03💬 cs.CL

NM-DEKL3^3_\infty: A Three-Layer Non-Monotone Evolving Dependent Type Logic

이 논문은 동적 환경에서 진화하는 지식을 형식화하기 위해 계산, 구성적 지식, 명제적 지식의 세 계층 구조를 가진 새로운 종속 타입 시스템인 NM-DEKL3^3_\infty를 제안하고, 그 문법과 의미론을 정의하며 초기 모델 구성을 통해 건전성과 방정식 완전성을 증명하고 μ\mu-계산에 대한 임베딩 및 비동형 불변 속성의 표현 가능성을 포함하는 엄격한 표현력 포함 관계를 규명합니다.

Peng Chen2026-03-03💬 cs.CL

DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement

이 논문은 정상 및 구음장애 발화 간의 대비적 선호도를 기반으로 리듬 예측기를 최적화하고 병리적 음향 스타일을 시뮬레이션하는 'DARS' 프레임워크를 제안하여, 합성 구음장애 발화 데이터를 활용한 Whisper 기반 자동음성인식 시스템의 단어오류율을 기존 최선 방법 대비 54.22% 상대적으로 감소시켰음을 보여줍니다.

Minghui Wu, Xueling Liu, Jiahuan Fan + 3 more2026-03-03💬 cs.CL

End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation

이 논문은 프레임 레벨 어댑터와 다중 웨이트-k 지식 증류를 통해 지연 시간을 줄이고 ASR 오류에 대한 내성을 강화하며, UASpeech 데이터셋에서 기존 최첨단 모델 대비 54.25% 의 단어 오류율 감소와 4.67 점의 MOS 를 달성한 엔드 - 투 - 엔드 동시 구 dysarthria 음성 재구성 시스템을 제안합니다.

Minghui Wu, Haitao Tang, Jiahuan Fan + 2 more2026-03-03💬 cs.CL