cs.CL 편의 논문 | Gist.Science

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

MERLIN 은 저자원 언어의 복잡한 추론 능력을 향상시키기 위해 일반 이중 언어 데이터에서 작업별 데이터로 이어지는 커리큘럼 학습 전략과 소량의 DoRA 가중치 적응을 결합한 2 단계 모델 스태킹 프레임워크를 제안합니다.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

이 논문은 동시 화성 번역 시스템의 지연 시간 평가에서 발생하는 분할 관련 구조적 편향을 해결하기 위해 새로운 지표 (YAAL, LongYAAL) 와 재분할 도구 (SoftSegmenter) 를 제안하고, 이를 OmniSTEval 툴킷을 통해 통합하여 기존 지표보다 신뢰성 있는 평가를 가능하게 합니다.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

이 논문은 기존 방법론을 그대로 적용할 경우 편미분방정식 (PDE) 과 같은 과학적 머신러닝 작업에서 디코더 전용 모델이 인코더 전용 모델보다 성능이 낮음을 규명하고, '병렬 뒤집기 (Parallel Flipping)'와 '시퀀스 더블링 (Sequence Doubling)'이라는 두 가지 새로운 양방향 모방 기법을 통해 디코더 전용 모델의 성능을 크게 향상시켜 인코더 모델과의 격차를 해소함을 보여줍니다.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

이 논문은 언어 모델의 효율적인 평가를 위해 제안된 마이크로 벤치마킹이 모델 간 성능 차이를 일관되게 순위 매기기에는 신뢰성이 부족하며, 특히 성능 차이가 작은 모델들을 구별하려면 무작위 샘플링과 유사한 수준의 큰 데이터셋 (약 250 개) 이 필요함을 실증적으로 보여줍니다.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

이 논문은 LLM 의 내부 상태가 사실성 여부보다는 지식 회상 여부에 더 크게 반영되며, 특히 통계적 연관성에 기반한 '연관된 환각'은 사실적 출력과 기하학적으로 유사하여 기존 탐지 방법으로는 구별하기 어렵다는 점을 주장합니다.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

이 논문은 사용자의 행동으로부터 실시간으로 특정 목적을 추론하여 이를 기반으로 생성 및 평가하는 'Just-In-Time' 아키텍처를 제안함으로써, 일반 LLM 보다 훨씬 높은 품질의 맞춤형 도구와 응답을 생성할 수 있음을 보여줍니다.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

이 논문은 체인 오브 씽킹 (Chain-of-Thought) 추론 기법이 대문자 언어 모델의 문맥 의존적 번역 능력을 향상시켜, 특히 기존 성능이 높은 모델일수록 더 큰 개선 효과를 보인다는 것을 DiscEvalMT 벤치마크를 통해 입증했습니다.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

이 논문은 채팅 AI 를 활용한 의사소통 데이터 코딩이 성별 및 인종/민족 하위 집단 간에 인간 평가자와 일관된 성능을 보임을 입증하여 대규모 협업 및 의사소통 평가에의 활용 가능성을 제시합니다.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

이 논문은 협업 배틀십과 같은 과제를 통해 언어 모델의 정보 탐색 및 의사결정 능력을 평가하고, 베이지안 실험 설계에 영감을 받은 몬테카를로 추론 기법을 도입하여 인간을 능가하는 합리적 에이전트를 구축하는 방법을 제시합니다.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

이 논문은 기존 일반 목적 평가 지표의 한계를 극복하고 의미 보존 및 유창성을 포함한 세 가지 차원에서 독일어 자동 텍스트 단순화 품질을 종합적으로 평가하는 최초의 메트릭인 'DETECT'를 제안하며, 이를 위해 LLM 기반의 합성 데이터 생성 파이프라인을 구축하고 인간 평가 데이터셋을 통해 기존 지표보다 우수한 상관관계를 입증했습니다.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

이 논문은 59 개 아프리카 언어를 포괄하는 새로운 벤치마크 'AfriMTEB'를 도입하고, 교차언어적 대비적 증류 기법을 통해 아프리카 언어에 최적화된 최첨단 임베딩 모델 'AfriE5'를 제안하여 기존 모델들을 능가하는 성능을 입증합니다.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

이 논문은 빅 파이브 성격 특성을 기반으로 저차원 부분 공간과 최적 계층을 탐지하여 유창성과 일반 능력을 유지하면서 대규모 언어 모델의 성격을 정밀하게 조절하는 새로운 하이브리드 계층 선택 기반 스티어링 프레임워크를 제안합니다.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

이 논문은 사회적 불평등으로 인해 기록에서 누락된 '숨겨진 인물'들의 역사를 재구성하기 위해, LLM 의 환각을 의도적으로 활용하여 증거에 기반한 대안적 내러티브를 생성하는 '비판적 허구화 (critical confabulation)' 개념을 제안하고 이를 검증합니다.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

이 논문은 추론 모델의 테스트 시간 적응 시 발생하는 수렴 문제를 해결하기 위해, 고엔트로피 분기 토큰만 선택적으로 업데이트하고 엔트로피 밴드 정규화를 적용하여 라벨 없이도 안정적이고 효과적인 성능 향상을 이루는 'SPINE' 프레임워크를 제안합니다.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

이 논문은 다중 도구 오케스트레이션 환경에서 LLM 기반 에이전트가 비민감 정보 조각들을 결합하여 예상치 못한 민감 정보를 유출하는 새로운 프라이버시 위험 (TOP-R) 을 최초로 체계적으로 규명하고, 이를 평가하는 벤치마크와 완화 전략을 제시합니다.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

이 논문은 전역 평균 손실에 의존하는 기존 방식을 넘어, 슬라이딩 윈도우를 활용한 국소적 신호의 집합을 통해 파인튜닝된 대규모 언어 모델의 멤버십 추론 공격 정확도를 획기적으로 향상시킨 'WBC' 방법을 제안하고 그 우수성을 입증합니다.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

이 논문은 다양한 학년 수준에 맞는 교육용 콘텐츠를 생성하기 위해 가독성 지표를 클러스터링하여 대규모 언어 모델을 파인튜닝하는 프레임워크를 제안하고, 이를 통해 프롬프트 기반 방법 대비 학년 적합성을 35.64% 포인트 향상시키면서도 사실적 정확성을 유지함을 입증했습니다.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

이 논문은 USAS 프레임워크의 규칙 기반 시맨틱 태거를 다국어 신경망 모델과 실버 표준 데이터로 보완하여 성능을 향상시키고, 이를 검증하기 위한 대규모 평가와 오픈 소스 리소스를 제안합니다.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

이 논문은 강화학습 후 학습을 거친 대형 추론 모델에서 발생하는 탐색 붕괴 문제를 해결하기 위해 추가 학습 없이 중간 계층의 엔트로피를 활용하는 '잠재적 탐색 디코딩 (LED)' 전략을 제안하여 추론 성능을 효과적으로 향상시킨다는 내용을 담고 있습니다.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

← 이전 다음 →