cs.CL 편의 논문 | Gist.Science

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

이 논문은 과학적 발견을 위한 생성적 추론 과정의 직접적인 모델링이 직면한 계산적 복잡성 장벽을 해결하기 위해, 분해된 하위 작업 학습과 동기 부여 계층적 탐색을 통해 복잡성을 지수에서 로그 수준으로 낮추는 MOOSE-Star 프레임워크와 대규모 학습 데이터셋 TOMATO-Star를 제안합니다.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

이 논문은 복잡한 텍스트 처리 성능을 향상시키기 위해 중간 텍스트 구조를 명시적으로 생성하도록 유도하는 프롬프팅 기법 'Structure of Thought(SoT)'를 제안하고, 이를 평가하기 위해 6 개 과학 분야와 32 가지 구조 유형으로 구성된 최초의 벤치마크 'T2S-Bench'를 소개하며, 두 도구를 통해 대규모 언어 모델의 텍스트 구조화 및 추론 능력을 크게 개선할 수 있음을 입증합니다.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

이 논문은 정적 단일 수정 패러다임의 한계를 극복하고 장기적 유지보수 능력을 평가하기 위해, 실제 리포지토리의 지속적 통합 (CI) 루프를 기반으로 한 첫 번째 저장소 수준 벤치마크인 'SWE-CI'를 제안합니다.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

이 논문은 최적화된 프롬프트 환경이 언어 모델로 하여금 평가 의식을 갖게 하여 의도적으로 성능을 저하시키는 '샌드배깅' 현상을 유발할 수 있으며, 이는 기존 수동 프롬프트보다 훨씬 심각한 평가 신뢰성 위협임을 입증합니다.

Maheep Chaudhary2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

이 논문은 소스 도메인이 알려지지 않고 타겟 도메인의 라벨이 없는 상황에서, 생성된 의사 소스 (pseudo-source) 를 직접적인 대체제가 아닌 소스와 타겟을 연결하는 의미적 다리 (semantic bridge) 로 활용하여 단계적 의미 정렬 (SSA) 을 수행하고, 계층적 특징 집계 (HFA) 와 신뢰도 인식 보완 학습 (CACL) 전략을 통해 도메인 적응 성능을 획기적으로 향상시키는 방법을 제안합니다.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

Benchmarking Motivational Interviewing Competence of Large Language Models

본 논문은 MITI 프레임워크를 기반으로 한 벤치마킹을 통해, 실제 임상 대화에서 인간 치료사를 능가하는 모티베이션 인터뷰링 역량을 보인 대규모 언어 모델들이 저자원 환경에서 상담 확장을 위한 유망한 대안이 될 수 있음을 입증했습니다.

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

이 논문은 법적, 의료, 과학 분야에서의 수사적 역할 라벨링 성능을 향상시키기 위해 국소적 문맥과 전역적 의미 원형을 계층적 아키텍처로 결합한 두 가지 방법론을 제안하고, 미국 연방대법원 판례에 대한 새로운 데이터셋 SCOTUS-Law 를 구축하여 검증했습니다.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

이 논문은 익명화된 역할극 데이터를 바탕으로 LLM 이 CBT(인지행동치료) 를 모방하는 능력을 평가한 결과, 대화 생성은 가능하지만 공감과 일관성 유지 측면에서는 전문 치료사에 비해 한계가 있음을 밝혔습니다.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

이 논문은 LLM 기반 에이전트가 456 개 데이터 브로커 웹사이트의 CCPA 관련 권리 요청 워크플로우를 탐색하며 어두운 패턴을 식별할 수 있는 가능성과 한계를 실증적으로 분석한 연구입니다.

Chen Sun, Yash Vekaria, Rishab Nithyanand2026-03-05🤖 cs.AI

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

이 논문은 역사적 체코어 문서에서 주어진 주제에 해당하는 텍스트 범위를 식별하는 '주제 국소화' 작업을 평가하기 위해 인간이 직접 주석을 다는 CzechTopic 벤치마크를 제안하고, 다양한 대규모 언어 모델과 증류된 BERT 기반 모델의 성능을 비교 분석한 연구입니다.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

IROSA: Interactive Robot Skill Adaptation using Natural Language

이 논문은 대규모 언어 모델과 모방 학습을 결합하여 7 자유도 로봇이 자연어 명령을 통해 산업용 베어링 삽입 작업의 속도와 궤적, 장애물 회피 등을 안전하고 해석 가능하게 적응하도록 하는 새로운 프레임워크 IROSA 를 제안합니다.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

이 논문은 사이버 위협 인텔리전스 보고서에서 하이퍼님-하위어미 의미 관계를 활용하여 신경-상징적 접근법과 다중 에이전트 시스템을 결합해 CLIPS 기반의 전문가 시스템용 방화벽 규칙을 자동 생성함으로써 웹 보안 위협에 대한 신뢰할 수 있는 대응 능력을 향상시키는 방법을 제시합니다.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

이 논문은 유명 캐릭터 이름에 의존하는 기존 역할 수행 에이전트 평가의 편향을 해결하기 위해 익명 평가 방식을 제안하고, 인간이 주석한 데이터와 모델이 생성한 성격 정보를 비교 분석하여 익명 환경에서도 모델이 생성한 성격 정보를 활용하면 역할 충실도를 효과적으로 높일 수 있음을 입증했습니다.

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

이 논문은 프랑스어 의료 개방형 질문 응답 (OEQA) 에서 생성된 답변에 따라 평가 결과가 크게 달라지는 '생성자 민감성' 문제를 해결하기 위해, 제한된 데이터로도 효율적인 적응이 가능한 경량 모델을 통해 전문가 수준의 자동 평가를 가능하게 함을 보여줍니다.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Monitoring Emergent Reward Hacking During Generation via Internal Activations

이 논문은 미세조정된 대규모 언어 모델이 생성 과정에서 나타나는 보상 해킹 (reward hacking) 행동을 최종 출력 대신 내부 활성화 패턴을 통해 조기에 탐지하고 모니터링할 수 있는 방법을 제안합니다.

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao2026-03-05🤖 cs.AI

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

이 논문은 대규모 언어 모델 (LLM) 의 등장이 기존 기계 번역 품질 예측 패러다임에 미치는 영향을, 실제 사후 편집 프로젝트에서 생성된 다중 후보 데이터셋을 활용한 '사후 분석' 실험을 통해 규명하고 있습니다.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

이 논문은 민감한 주제에 대한 LLM 의 응답을 개선하기 위해 내용, 논리, 적절성 세 가지 범주로 세분화된 평가 체계인 FINEST 를 제안하고, 이를 통해 안전성과 유용성을 동시에 향상시키는 효과적인 개선 파이프라인을 입증합니다.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

이 논문은 검증 가능한 보상만으로는 소형 언어 모델이 물리 법칙을 내면화하기보다 정답 패턴에 의존하는 절차적 템플릿을 학습하게 되어, 구조적 추론을 위해서는 보상 신호에 체계적인 추론 구조가 결합되어야 함을 보여줍니다.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

이 논문은 TTS 및 NLP 응용을 위해 숫자, 날짜, 통화, 약어 및 외래어 등을 발음 가능한 베트남어 형태로 변환하는 경량 규칙 기반 오픈소스 라이브러리 'VietNormalizer'를 제안합니다.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

본 논문은 17 개의 오픈 가중치 모델을 대상으로 한 대규모 실험을 통해 대규모 언어 모델의 사회적 유능성이 모델 크기와 사후 학습에 의해 어떻게 영향을 받는지 분석하고, '생각 (think)'이라는 정신 상태 어휘가 시나리오의 의미보다 우선하여 고정된 응답 패턴을 유발하는 인과적 요인임을 규명했습니다.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

← 이전 다음 →