MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

이 논문은 과학적 발견을 위한 생성적 추론 과정의 직접적인 모델링이 직면한 계산적 복잡성 장벽을 해결하기 위해, 분해된 하위 작업 학습과 동기 부여 계층적 탐색을 통해 복잡성을 지수에서 로그 수준으로 낮추는 MOOSE-Star 프레임워크와 대규모 학습 데이터셋 TOMATO-Star를 제안합니다.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

이 논문은 복잡한 텍스트 처리 성능을 향상시키기 위해 중간 텍스트 구조를 명시적으로 생성하도록 유도하는 프롬프팅 기법 'Structure of Thought(SoT)'를 제안하고, 이를 평가하기 위해 6 개 과학 분야와 32 가지 구조 유형으로 구성된 최초의 벤치마크 'T2S-Bench'를 소개하며, 두 도구를 통해 대규모 언어 모델의 텍스트 구조화 및 추론 능력을 크게 개선할 수 있음을 입증합니다.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

이 논문은 소스 도메인이 알려지지 않고 타겟 도메인의 라벨이 없는 상황에서, 생성된 의사 소스 (pseudo-source) 를 직접적인 대체제가 아닌 소스와 타겟을 연결하는 의미적 다리 (semantic bridge) 로 활용하여 단계적 의미 정렬 (SSA) 을 수행하고, 계층적 특징 집계 (HFA) 와 신뢰도 인식 보완 학습 (CACL) 전략을 통해 도메인 적응 성능을 획기적으로 향상시키는 방법을 제안합니다.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

이 논문은 법적, 의료, 과학 분야에서의 수사적 역할 라벨링 성능을 향상시키기 위해 국소적 문맥과 전역적 의미 원형을 계층적 아키텍처로 결합한 두 가지 방법론을 제안하고, 미국 연방대법원 판례에 대한 새로운 데이터셋 SCOTUS-Law 를 구축하여 검증했습니다.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

이 논문은 역사적 체코어 문서에서 주어진 주제에 해당하는 텍스트 범위를 식별하는 '주제 국소화' 작업을 평가하기 위해 인간이 직접 주석을 다는 CzechTopic 벤치마크를 제안하고, 다양한 대규모 언어 모델과 증류된 BERT 기반 모델의 성능을 비교 분석한 연구입니다.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

이 논문은 사이버 위협 인텔리전스 보고서에서 하이퍼님-하위어미 의미 관계를 활용하여 신경-상징적 접근법과 다중 에이전트 시스템을 결합해 CLIPS 기반의 전문가 시스템용 방화벽 규칙을 자동 생성함으로써 웹 보안 위협에 대한 신뢰할 수 있는 대응 능력을 향상시키는 방법을 제시합니다.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

이 논문은 유명 캐릭터 이름에 의존하는 기존 역할 수행 에이전트 평가의 편향을 해결하기 위해 익명 평가 방식을 제안하고, 인간이 주석한 데이터와 모델이 생성한 성격 정보를 비교 분석하여 익명 환경에서도 모델이 생성한 성격 정보를 활용하면 역할 충실도를 효과적으로 높일 수 있음을 입증했습니다.

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

이 논문은 프랑스어 의료 개방형 질문 응답 (OEQA) 에서 생성된 답변에 따라 평가 결과가 크게 달라지는 '생성자 민감성' 문제를 해결하기 위해, 제한된 데이터로도 효율적인 적응이 가능한 경량 모델을 통해 전문가 수준의 자동 평가를 가능하게 함을 보여줍니다.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

본 논문은 17 개의 오픈 가중치 모델을 대상으로 한 대규모 실험을 통해 대규모 언어 모델의 사회적 유능성이 모델 크기와 사후 학습에 의해 어떻게 영향을 받는지 분석하고, '생각 (think)'이라는 정신 상태 어휘가 시나리오의 의미보다 우선하여 고정된 응답 패턴을 유발하는 인과적 요인임을 규명했습니다.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL