cs.CL 편의 논문 | Gist.Science

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

이 논문은 ESG 및 지속 가능성 분야에 특화된 대규모 언어 모델 (LLM) 의 능력을 평가하고 향상시키기 위해, 전문가 검증을 거친 1,136 개의 질문과 231 개의 핵심 문서로 구성된 'ESGenius'라는 최초의 종합 벤치마크를 소개하고, 이를 통해 RAG(검색 증강 생성) 방식이 특히 소형 모델의 성능을 크게 향상시킨다는 것을 입증했습니다.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

이 논문은 기존 벤치마크의 오염과 편향 문제를 해결하기 위해, 다른 LLM 이나 인력 개입 없이 원시 도메인 코퍼스를 기반으로 자동화된 완성형 평가 벤치마크를 생성하여 LLM 의 도메인 전문성을 확장 가능하고 공정하게 평가하는 새로운 파이프라인을 제안합니다.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

이 논문은 파인튜닝 없이 고정된 LLM 의 시스템 프롬프트를 사용자 입력에 맞춰 적응적으로 조정하는 'Sysformer'를 제안하여, 유해한 입력에 대한 거절률을 최대 80% 향상시키고 안전한 입력에 대한 준수율을 최대 90% 높이며 다양한 재킹킹 공격에 대한 모델의 견고성을 극대화한다고 요약할 수 있습니다.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

이 논문은 비전 - 언어 모델 (VLM) 의 활성화 특성을 분석하여 시각 토큰의 과잉 표현과 모달리티 간극 문제를 해결하기 위해, 토큰별 중요도를 고려한 선택적 양자화 전략을 도입함으로써 저비트 환경에서도 기존 방법보다 뛰어난 성능을 달성하는 VLMQ 라는 새로운 Post-Training Quantization 프레임워크를 제안합니다.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

이 논문은 농업 기계 매뉴얼을 기반으로 한 크로스링구얼 기술 질의응답 사례 연구를 통해, 하이브리드 RAG 방식이 128K 토큰 컨텍스트를 가진 직접 프롬프팅 방식보다 일관되게 더 높은 정확도를 보임을 입증하고, Gemini 2.5 Flash 및 Qwen 2.5 7B 와 같은 모델이 RAG 와 결합 시 85% 이상의 높은 성능을 달성함을 밝혔습니다.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

이 논문은 기존 멀티모달 문서 기반 질문 응답 시스템의 한계를 극복하기 위해 텍스트와 이미지를 통합적으로 활용하는 'CMRAG' 프레임워크와 대규모 삼중항 데이터셋을 제안하여, 다양한 시각 문서 질문 응답 벤치마크에서 단일 모달리티 기반 방법보다 우수한 성능을 입증했습니다.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

MERLIN 은 저자원 언어의 복잡한 추론 능력을 향상시키기 위해 일반 이중 언어 데이터에서 작업별 데이터로 이어지는 커리큘럼 학습 전략과 소량의 DoRA 가중치 적응을 결합한 2 단계 모델 스태킹 프레임워크를 제안합니다.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

이 논문은 동시 화성 번역 시스템의 지연 시간 평가에서 발생하는 분할 관련 구조적 편향을 해결하기 위해 새로운 지표 (YAAL, LongYAAL) 와 재분할 도구 (SoftSegmenter) 를 제안하고, 이를 OmniSTEval 툴킷을 통해 통합하여 기존 지표보다 신뢰성 있는 평가를 가능하게 합니다.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

이 논문은 기존 방법론을 그대로 적용할 경우 편미분방정식 (PDE) 과 같은 과학적 머신러닝 작업에서 디코더 전용 모델이 인코더 전용 모델보다 성능이 낮음을 규명하고, '병렬 뒤집기 (Parallel Flipping)'와 '시퀀스 더블링 (Sequence Doubling)'이라는 두 가지 새로운 양방향 모방 기법을 통해 디코더 전용 모델의 성능을 크게 향상시켜 인코더 모델과의 격차를 해소함을 보여줍니다.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

이 논문은 언어 모델의 효율적인 평가를 위해 제안된 마이크로 벤치마킹이 모델 간 성능 차이를 일관되게 순위 매기기에는 신뢰성이 부족하며, 특히 성능 차이가 작은 모델들을 구별하려면 무작위 샘플링과 유사한 수준의 큰 데이터셋 (약 250 개) 이 필요함을 실증적으로 보여줍니다.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

이 논문은 LLM 의 내부 상태가 사실성 여부보다는 지식 회상 여부에 더 크게 반영되며, 특히 통계적 연관성에 기반한 '연관된 환각'은 사실적 출력과 기하학적으로 유사하여 기존 탐지 방법으로는 구별하기 어렵다는 점을 주장합니다.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

이 논문은 사용자의 행동으로부터 실시간으로 특정 목적을 추론하여 이를 기반으로 생성 및 평가하는 'Just-In-Time' 아키텍처를 제안함으로써, 일반 LLM 보다 훨씬 높은 품질의 맞춤형 도구와 응답을 생성할 수 있음을 보여줍니다.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

이 논문은 체인 오브 씽킹 (Chain-of-Thought) 추론 기법이 대문자 언어 모델의 문맥 의존적 번역 능력을 향상시켜, 특히 기존 성능이 높은 모델일수록 더 큰 개선 효과를 보인다는 것을 DiscEvalMT 벤치마크를 통해 입증했습니다.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

이 논문은 채팅 AI 를 활용한 의사소통 데이터 코딩이 성별 및 인종/민족 하위 집단 간에 인간 평가자와 일관된 성능을 보임을 입증하여 대규모 협업 및 의사소통 평가에의 활용 가능성을 제시합니다.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

이 논문은 협업 배틀십과 같은 과제를 통해 언어 모델의 정보 탐색 및 의사결정 능력을 평가하고, 베이지안 실험 설계에 영감을 받은 몬테카를로 추론 기법을 도입하여 인간을 능가하는 합리적 에이전트를 구축하는 방법을 제시합니다.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

이 논문은 기존 일반 목적 평가 지표의 한계를 극복하고 의미 보존 및 유창성을 포함한 세 가지 차원에서 독일어 자동 텍스트 단순화 품질을 종합적으로 평가하는 최초의 메트릭인 'DETECT'를 제안하며, 이를 위해 LLM 기반의 합성 데이터 생성 파이프라인을 구축하고 인간 평가 데이터셋을 통해 기존 지표보다 우수한 상관관계를 입증했습니다.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

이 논문은 59 개 아프리카 언어를 포괄하는 새로운 벤치마크 'AfriMTEB'를 도입하고, 교차언어적 대비적 증류 기법을 통해 아프리카 언어에 최적화된 최첨단 임베딩 모델 'AfriE5'를 제안하여 기존 모델들을 능가하는 성능을 입증합니다.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

이 논문은 빅 파이브 성격 특성을 기반으로 저차원 부분 공간과 최적 계층을 탐지하여 유창성과 일반 능력을 유지하면서 대규모 언어 모델의 성격을 정밀하게 조절하는 새로운 하이브리드 계층 선택 기반 스티어링 프레임워크를 제안합니다.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

이 논문은 사회적 불평등으로 인해 기록에서 누락된 '숨겨진 인물'들의 역사를 재구성하기 위해, LLM 의 환각을 의도적으로 활용하여 증거에 기반한 대안적 내러티브를 생성하는 '비판적 허구화 (critical confabulation)' 개념을 제안하고 이를 검증합니다.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

← 이전 다음 →