Activation Steering for Masked Diffusion Language Models

이 논문은 마스킹 확산 언어 모델 (MDLM) 에서 최적화나 샘플링 절차 변경 없이 단일 저차원 방향을 추출하여 역확산 과정 전체에 적용함으로써 안전 거부 등 행동을 효과적으로 제어하는 새로운 활성화 조향 기법을 제안하고, 이 방향이 아크로레지브 모델과 달리 사전 지시 토큰에서도 유효하며 언어 간 전이성이 높지만 아키텍처 간에는 일반화되지 않음을 규명합니다.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

이 논문은 추론 시 활성화 조작에 의존하는 기존 스티어링 방법의 한계를 극복하기 위해, 스티어링 벡터를 진단 신호로 활용하여 개별 어텐션 헤드와 MLP 뉴런을 대상으로 한 훈련 없는 가중치 편집 프레임워크인 'Steer2Edit'를 제안하며, 이를 통해 안전성, 진실성, 추론 효율성 간의 균형을 크게 개선함을 보여줍니다.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

이 논문은 희귀 질환과 같은 긴 꼬리 데이터를 줄이고 강화학습 및 도구 증강 에이전트 훈련을 통해 진단 추론 능력을 향상시킨 엔티티 인식 지속적 사전 훈련 프레임워크를 도입하여, 다양한 의료 벤치마크에서 최첨단 성능을 달성하고 폐쇄형 멀티모달 시스템을 능가하는 의료용 대규모 멀티모달 모델 'MedXIAOHE'를 제안합니다.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

이 논문은 다중 모달 대형 언어 모델의 추론 능력을 향상시키기 위해, 보상 설계에 초점을 맞춘 계층적 루브릭 기반 커리큘럼 학습 프레임워크인 RuCL을 제안하며, 이를 통해 기존 모델 대비 평균 7.83% 의 성능 향상을 달성하고 60.06% 의 최첨단 정확도를 기록했다고 요약할 수 있습니다.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

이 논문은 이미지 기반 방법의 한계를 극복하고 풍부한 음성 데이터를 활용하기 위해 텍스트와 음성을 융합한 자기 진화 메커니즘을 도입한 음성 기반 기계 번역 프레임워크를 제안하며, 이를 통해 멀티모달 및 일반 기계 번역 작업에서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

이 논문은 대규모 언어 모델이 복잡한 연구 과제를 수행할 수 있는 능력을 평가하기 위해 구조화된 계획, 광범위한 검색, 심층 조사를 통합한 '슈퍼 리서치 (Super Research)' 태스크와 이를 검증하는 300 개의 전문가 질문으로 구성된 벤치마크를 제안합니다.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

이 논문은 이기적인 데이터셋 형식과 주석 표준으로 인해 단절된 교차 문서 코어퍼런스 해결 (CDCR) 연구를 해결하기 위해 다양한 도메인의 공개 코퍼스를 통합하고 정제하여 일관된 형식과 평가 프로토콜을 제공하는 통합 데이터셋 'uCDCR'을 제안하고, 이를 통해 모델의 일반화 능력을 향상시킬 수 있음을 입증합니다.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

이 논문은 자기 놀이 (self-play) 기반의 LLM 진화가 한계에 부딪히는 원인을 분석하고, 제안자·해결자·검증자라는 삼위일체 역할을 통해 학습 가능한 정보의 증가를 보장하는 비대칭적 공진화, 용량 확장, 능동적 정보 추구라는 세 가지 시스템 설계 전략을 제시함으로써 지속 가능한 자기 진화를 가능하게 한다고 요약할 수 있습니다.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL