cs.CL 편의 논문 | Gist.Science

Activation Steering for Masked Diffusion Language Models

이 논문은 마스킹 확산 언어 모델 (MDLM) 에서 최적화나 샘플링 절차 변경 없이 단일 저차원 방향을 추출하여 역확산 과정 전체에 적용함으로써 안전 거부 등 행동을 효과적으로 제어하는 새로운 활성화 조향 기법을 제안하고, 이 방향이 아크로레지브 모델과 달리 사전 지시 토큰에서도 유효하며 언어 간 전이성이 높지만 아키텍처 간에는 일반화되지 않음을 규명합니다.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

이 논문은 다양한 LLM 과 STEM 벤치마크에서 추론 시 생성된 디코딩 엔트로피 프로파일을 활용하여 도메인 드리프트 하의 모델 정확도를 실시간으로 추정하고, 이를 통해 성능 격차를 식별하여 데이터 수집을 최적화할 수 있음을 입증합니다.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

이 논문은 LLM 의 자기 개선 파이프라인에서 과거의 실패 사례가 컨텍스트에 포함될 경우 유사한 오류를 반복하게 만드는 '컨텍스트 드래그 (Contextual Drag)' 현상을 규명하고, 이로 인해 모델 성능이 저하되거나 오히려 악화될 수 있음을 다양한 실험을 통해 입증했습니다.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

이 논문은 사용자의 성격을 '잠재적 신호'로 활용하여 선호도를 정렬하는 PACIFIC 데이터셋과 프레임워크를 제안함으로써, 무작위 선호도 대비 답변 정확도를 29.25% 에서 76% 로 획기적으로 향상시킨다는 것을 입증했습니다.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

이 논문은 추론 시 활성화 조작에 의존하는 기존 스티어링 방법의 한계를 극복하기 위해, 스티어링 벡터를 진단 신호로 활용하여 개별 어텐션 헤드와 MLP 뉴런을 대상으로 한 훈련 없는 가중치 편집 프레임워크인 'Steer2Edit'를 제안하며, 이를 통해 안전성, 진실성, 추론 효율성 간의 균형을 크게 개선함을 보여줍니다.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

이 논문은 희귀 질환과 같은 긴 꼬리 데이터를 줄이고 강화학습 및 도구 증강 에이전트 훈련을 통해 진단 추론 능력을 향상시킨 엔티티 인식 지속적 사전 훈련 프레임워크를 도입하여, 다양한 의료 벤치마크에서 최첨단 성능을 달성하고 폐쇄형 멀티모달 시스템을 능가하는 의료용 대규모 멀티모달 모델 'MedXIAOHE'를 제안합니다.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

이 논문은 대규모 평가 실험을 통해 기존 연구의 부정적 결론을 반박하고, LLM 이 시계열 예측 성능을 향상시키며 특히 도메인 간 일반화와 복잡한 시간 역학 모델링에 필수적임을 입증했습니다.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

이 논문은 LLM 의 최종 소프트맥스 분류기를 에너지 기반 모델로 재해석하여, 추가적인 학습 없이 출력 로짓에서 도출된 '누출된 에너지'와 '마진화된 에너지' 지표를 통해 사실적 오류와 환각을 효과적으로 탐지하는 새로운 방법을 제안합니다.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

이 논문은 20 개 이상의 STEM 분야에 걸친 대학 과제 및 기출문제를 기반으로 한 멀티모달 추론 벤치마크인 CFE-Bench 를 소개하고, 최첨단 모델조차도 다단계 추론 과정에서 중간 상태 유지와 단계 효율성 측면에서 여전히 한계를 보이고 있음을 규명합니다.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

이 논문은 다중 모달 대형 언어 모델의 추론 능력을 향상시키기 위해, 보상 설계에 초점을 맞춘 계층적 루브릭 기반 커리큘럼 학습 프레임워크인 RuCL을 제안하며, 이를 통해 기존 모델 대비 평균 7.83% 의 성능 향상을 달성하고 60.06% 의 최첨단 정확도를 기록했다고 요약할 수 있습니다.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

이 논문은 이미지 기반 방법의 한계를 극복하고 풍부한 음성 데이터를 활용하기 위해 텍스트와 음성을 융합한 자기 진화 메커니즘을 도입한 음성 기반 기계 번역 프레임워크를 제안하며, 이를 통해 멀티모달 및 일반 기계 번역 작업에서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

이 논문은 비정형 과학 문헌 데이터를 구조화된 JSON 형식으로 변환하고 CLI, MCP, Python SDK 등 다양한 인터페이스를 통해 에이전트의 효율적인 데이터 접근과 활용을 가능하게 하는 3 계층 아키텍처를 가진 오픈소스 도구인 DeepXiv-SDK 를 소개합니다.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

이 논문은 대규모 언어 모델이 복잡한 연구 과제를 수행할 수 있는 능력을 평가하기 위해 구조화된 계획, 광범위한 검색, 심층 조사를 통합한 '슈퍼 리서치 (Super Research)' 태스크와 이를 검증하는 300 개의 전문가 질문으로 구성된 벤치마크를 제안합니다.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

이 논문은 이기적인 데이터셋 형식과 주석 표준으로 인해 단절된 교차 문서 코어퍼런스 해결 (CDCR) 연구를 해결하기 위해 다양한 도메인의 공개 코퍼스를 통합하고 정제하여 일관된 형식과 평가 프로토콜을 제공하는 통합 데이터셋 'uCDCR'을 제안하고, 이를 통해 모델의 일반화 능력을 향상시킬 수 있음을 입증합니다.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

이 논문은 임상적 의미의 질문 기반 임베딩을 구축하여 해석 가능성을 높이고 블랙박스 모델과의 성능 격차를 줄이는 새로운 프레임워크인 QIME 을 제안합니다.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

이 논문은 실제 임상 워크플로우의 복잡성을 반영하기 위해 전문가가 검증한 2,500 개의 개방형 사례로 구성된 중국어 의료 LLM 벤치마크 'ClinConsensus'를 제안하고, 이를 통해 다양한 모델의 임상 적용 능력을 체계적으로 평가한 결과를 제시합니다.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

이 논문은 모델의 응답 신뢰도를 평가하여 반복적 추론을 유도하고, 'Oops'와 같은 자기반성 패턴을 줄이며 정확도를 향상시키는 효율적인 '재귀적 생각 - 답변 프로세스 (R-TAP)'를 제안합니다.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

이 논문은 기존 모델들이 빈도 분포나 상관관계 중 하나만 보존하던 한계를 넘어, 실제 텍스트와 DNA 서열의 단어/염기 빈도 분포와 장거리 상관관계를 동시에 유지하면서도 단기 의존성을 무작위화하는 새로운 대리 모델 (surrogate model) 을 제안합니다.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

이 논문은 자기 놀이 (self-play) 기반의 LLM 진화가 한계에 부딪히는 원인을 분석하고, 제안자·해결자·검증자라는 삼위일체 역할을 통해 학습 가능한 정보의 증가를 보장하는 비대칭적 공진화, 용량 확장, 능동적 정보 추구라는 세 가지 시스템 설계 전략을 제시함으로써 지속 가능한 자기 진화를 가능하게 한다고 요약할 수 있습니다.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

이 논문은 희소 어텐션에서 학습된 게이트가 무작위 게이트보다 성능이 크게 향상되지 않는 '라우팅 흡수' 현상을 규명하고, 이는 Q/K/V 파라미터의 공유로 인한 모델의 적응적 보상 메커니즘 때문이며, 따라서 표현 학습과 희소화를 분리하는 사후 접근법이 더 효과적임을 주장합니다.

Keston Aquino-Michaels2026-03-04💬 cs.CL

← 이전 다음 →