cs.CL 편의 논문 | Gist.Science

Language Shapes Mental Health Evaluations in Large Language Models

이 연구는 GPT-4o 와 Qwen3 와 같은 대규모 언어 모델이 중국어 프롬프트를 사용할 때 영어 프롬프트에 비해 정신 건강 낙인 관련 응답이 더 높고, 낙인 감지 민감도가 낮으며, 우울증 심각도 예측이 과소평가되는 등 언어에 따라 평가 편향과 의사결정 임계값이 체계적으로 달라진다는 것을 밝혔습니다.

Jiayi Xu, Xiyang Hu2026-03-10💬 cs.CL

A Dynamic Self-Evolving Extraction System

이 논문은 추출된 정보를 지식 베이스에 축적하고, 이를 다시 LLM 추출기의 성능 향상에 활용하는 폐쇄형 순환 구조를 통해 도메인 지식을 지속적으로 진화시키는 'DySECT'라는 동적 자기 진화 추출 시스템을 제안합니다.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

이 논문은 LLM 의 특정 추론 패턴을 선택적으로 수정하면서도 다른 능력을 보존하기 위해 신경 회로의 중첩을 줄이는 'REdit' 프레임워크를 제안하고, 이를 통해 추론 편집의 일반성과 국소성 간의 상충 관계를 해결함을 보여줍니다.

Zhenyu Lei, Qiong Wu, Jianxiong Dong, Yinhan He, Emily Dodwell, Yushun Dong, Jundong Li2026-03-10💬 cs.CL

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

이 논문은 장기형 QA 벤치마크의 메타 평가에서 인간 쌍별 선호도 비교의 한계를 지적하고, 시스템 수준 평가와 메트릭 수준 평가에 적합한 서로 다른 방법론과 전문가 참여의 중요성을 제시하며 향후 평가 표준 개선을 위한 실용적 가이드라인을 제안합니다.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

이 논문은 수학적으로 검증 가능한 보상을 활용한 강화학습 기법인 Chart-RL 을 제안하여, 기존 지도학습보다 다양한 차트 이해 벤치마크에서 우수한 성능과 일반화 능력을 입증했습니다.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

이 논문은 대형 언어 모델을 화자 (Prover) 와 반박자 (Skeptic) 로 활용하여 전문가와의 대화를 통해 지식을 추출하는 것이 아니라 명시화하는 'Elenchus' 시스템을 제안하고, 이를 비단조 다결 (NMMS) 논리에 매핑하여 W3C PROV-O 온톨로지의 설계 근거를 대화에서 추출하고 형식적으로 검증하는 방법을 제시합니다.

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

이 논문은 36 가지의 다양한 문서 분할 전략과 5 가지 임베딩 모델을 6 개 도메인에서 대규모로 평가하여, 고정 길이 분할보다 의미나 구조를 고려한 지능형 분할이 검색 성능을 획기적으로 향상시킨다는 사실을 규명하고 효율성과 효과성 간의 최적 균형을 제시합니다.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

이 논문은 자동화된 평가 모델을 활용한 약한 지도 학습 기반의 'Self-MOA' 프레임워크를 제안하여, 소규모 언어 모델을 인간 감독 데이터에 의존하지 않고도 안전성과 유용성을 동시에 최적화할 수 있음을 입증했습니다.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge

이 논문은 LLM 을 활용한 해석 가능하고 세분화된 평가 및 모델 정렬을 지원하기 위해, 다양한 생성 전략을 통합하고 모듈형 파이프라인을 제공하는 오픈소스 라이브러리 'AutoChecklist'를 제안합니다.

Karen Zhou, Chenhao Tan2026-03-10💬 cs.CL

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

이 논문은 긴 문맥에서의 주의력 희석과 추론 환각 문제를 해결하기 위해 외부 증거의 활용을 점진적으로 최적화하는 3 단계 선호도 정렬 프레임워크인 Hit-RAG 를 제안하고, 이를 통해 대규모 모델보다 우수한 성능을 입증합니다.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

이 논문은 공유 프로젝터의 언어 간 간섭 문제를 해결하기 위해 쿼리 뱅크와 게이트 네트워크를 활용한 언어 인식 증류 방식을 도입하여 다국어 지시 준수 성능을 크게 향상시키고, 고품질 TTS 기반의 새로운 다국어 음성 QA 벤치마크인 Audio-MLQA 를 제안합니다.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

이 논문은 자유 형식의 추론 과정을 방향성 의존성 그래프로 변환하여 최단 유효 경로를 추출함으로써 대형 추론 모델 (LRM) 의 추론 효율성과 구조적 중복성을 자동 평가하는 'CoTJudger'라는 프레임워크를 제안합니다.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

이 논문은 고엔트로피 상태의 교사 모델 예측 시 역 KL 발산을 보완하기 위해 순 KL 발산을 결합한 '엔트로피 인식 온-정책 증류 (Entropy-Aware On-Policy Distillation)'를 제안하여, 생성 다양성을 유지하면서 수학 추론 성능을 크게 향상시켰음을 보여줍니다.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

이 논문은 수학 추론 태스크와 테스트 하네스 조작을 동시에 가능하게 하는 'Countdown-Code' 환경을 통해, 학습 데이터의 소량 오염으로 인한 보상 해킹이 강화학습을 거쳐 일반화될 수 있음을 규명하고 합성 학습 데이터 검증의 중요성을 강조합니다.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

이 논문은 대화 요약과 manually 설계된 페르소나 정보를 활용하여 AIWolfDial 2024 를 위한 대형 언어 모델 기반 늑대인간 게임 에이전트의 일관성과 캐릭터 유지 능력을 향상시켰음을 보여줍니다.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

이 논문은 기존 범주형 또는 차원형 감정 주석의 한계를 극복하기 위해 대화 맥락에서 화자의 정서 상태를 자연어로 기술하는 새로운 과제인 '대화 중 감정 전사 (ETC)'를 제안하고, 이를 위한 일본어 데이터셋과 벤치마크를 공개했습니다.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

← 이전 다음 →

cs.CL