MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

MERLIN 은 저자원 언어의 복잡한 추론 능력을 향상시키기 위해 일반 이중 언어 데이터에서 작업별 데이터로 이어지는 커리큘럼 학습 전략과 소량의 DoRA 가중치 적응을 결합한 2 단계 모델 스태킹 프레임워크를 제안합니다.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

이 논문은 동시 화성 번역 시스템의 지연 시간 평가에서 발생하는 분할 관련 구조적 편향을 해결하기 위해 새로운 지표 (YAAL, LongYAAL) 와 재분할 도구 (SoftSegmenter) 를 제안하고, 이를 OmniSTEval 툴킷을 통해 통합하여 기존 지표보다 신뢰성 있는 평가를 가능하게 합니다.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

이 논문은 기존 방법론을 그대로 적용할 경우 편미분방정식 (PDE) 과 같은 과학적 머신러닝 작업에서 디코더 전용 모델이 인코더 전용 모델보다 성능이 낮음을 규명하고, '병렬 뒤집기 (Parallel Flipping)'와 '시퀀스 더블링 (Sequence Doubling)'이라는 두 가지 새로운 양방향 모방 기법을 통해 디코더 전용 모델의 성능을 크게 향상시켜 인코더 모델과의 격차를 해소함을 보여줍니다.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

이 논문은 언어 모델의 효율적인 평가를 위해 제안된 마이크로 벤치마킹이 모델 간 성능 차이를 일관되게 순위 매기기에는 신뢰성이 부족하며, 특히 성능 차이가 작은 모델들을 구별하려면 무작위 샘플링과 유사한 수준의 큰 데이터셋 (약 250 개) 이 필요함을 실증적으로 보여줍니다.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

이 논문은 사용자의 행동으로부터 실시간으로 특정 목적을 추론하여 이를 기반으로 생성 및 평가하는 'Just-In-Time' 아키텍처를 제안함으로써, 일반 LLM 보다 훨씬 높은 품질의 맞춤형 도구와 응답을 생성할 수 있음을 보여줍니다.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

이 논문은 기존 일반 목적 평가 지표의 한계를 극복하고 의미 보존 및 유창성을 포함한 세 가지 차원에서 독일어 자동 텍스트 단순화 품질을 종합적으로 평가하는 최초의 메트릭인 'DETECT'를 제안하며, 이를 위해 LLM 기반의 합성 데이터 생성 파이프라인을 구축하고 인간 평가 데이터셋을 통해 기존 지표보다 우수한 상관관계를 입증했습니다.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

이 논문은 빅 파이브 성격 특성을 기반으로 저차원 부분 공간과 최적 계층을 탐지하여 유창성과 일반 능력을 유지하면서 대규모 언어 모델의 성격을 정밀하게 조절하는 새로운 하이브리드 계층 선택 기반 스티어링 프레임워크를 제안합니다.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

이 논문은 추론 모델의 테스트 시간 적응 시 발생하는 수렴 문제를 해결하기 위해, 고엔트로피 분기 토큰만 선택적으로 업데이트하고 엔트로피 밴드 정규화를 적용하여 라벨 없이도 안정적이고 효과적인 성능 향상을 이루는 'SPINE' 프레임워크를 제안합니다.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

이 논문은 전역 평균 손실에 의존하는 기존 방식을 넘어, 슬라이딩 윈도우를 활용한 국소적 신호의 집합을 통해 파인튜닝된 대규모 언어 모델의 멤버십 추론 공격 정확도를 획기적으로 향상시킨 'WBC' 방법을 제안하고 그 우수성을 입증합니다.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

이 논문은 다양한 학년 수준에 맞는 교육용 콘텐츠를 생성하기 위해 가독성 지표를 클러스터링하여 대규모 언어 모델을 파인튜닝하는 프레임워크를 제안하고, 이를 통해 프롬프트 기반 방법 대비 학년 적합성을 35.64% 포인트 향상시키면서도 사실적 정확성을 유지함을 입증했습니다.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

이 논문은 USAS 프레임워크의 규칙 기반 시맨틱 태거를 다국어 신경망 모델과 실버 표준 데이터로 보완하여 성능을 향상시키고, 이를 검증하기 위한 대규모 평가와 오픈 소스 리소스를 제안합니다.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

이 논문은 강화학습 후 학습을 거친 대형 추론 모델에서 발생하는 탐색 붕괴 문제를 해결하기 위해 추가 학습 없이 중간 계층의 엔트로피를 활용하는 '잠재적 탐색 디코딩 (LED)' 전략을 제안하여 추론 성능을 효과적으로 향상시킨다는 내용을 담고 있습니다.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG