ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

이 논문은 ESG 및 지속 가능성 분야에 특화된 대규모 언어 모델 (LLM) 의 능력을 평가하고 향상시키기 위해, 전문가 검증을 거친 1,136 개의 질문과 231 개의 핵심 문서로 구성된 'ESGenius'라는 최초의 종합 벤치마크를 소개하고, 이를 통해 RAG(검색 증강 생성) 방식이 특히 소형 모델의 성능을 크게 향상시킨다는 것을 입증했습니다.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

이 논문은 기존 벤치마크의 오염과 편향 문제를 해결하기 위해, 다른 LLM 이나 인력 개입 없이 원시 도메인 코퍼스를 기반으로 자동화된 완성형 평가 벤치마크를 생성하여 LLM 의 도메인 전문성을 확장 가능하고 공정하게 평가하는 새로운 파이프라인을 제안합니다.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

이 논문은 파인튜닝 없이 고정된 LLM 의 시스템 프롬프트를 사용자 입력에 맞춰 적응적으로 조정하는 'Sysformer'를 제안하여, 유해한 입력에 대한 거절률을 최대 80% 향상시키고 안전한 입력에 대한 준수율을 최대 90% 높이며 다양한 재킹킹 공격에 대한 모델의 견고성을 극대화한다고 요약할 수 있습니다.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

이 논문은 비전 - 언어 모델 (VLM) 의 활성화 특성을 분석하여 시각 토큰의 과잉 표현과 모달리티 간극 문제를 해결하기 위해, 토큰별 중요도를 고려한 선택적 양자화 전략을 도입함으로써 저비트 환경에서도 기존 방법보다 뛰어난 성능을 달성하는 VLMQ 라는 새로운 Post-Training Quantization 프레임워크를 제안합니다.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

이 논문은 농업 기계 매뉴얼을 기반으로 한 크로스링구얼 기술 질의응답 사례 연구를 통해, 하이브리드 RAG 방식이 128K 토큰 컨텍스트를 가진 직접 프롬프팅 방식보다 일관되게 더 높은 정확도를 보임을 입증하고, Gemini 2.5 Flash 및 Qwen 2.5 7B 와 같은 모델이 RAG 와 결합 시 85% 이상의 높은 성능을 달성함을 밝혔습니다.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

이 논문은 기존 멀티모달 문서 기반 질문 응답 시스템의 한계를 극복하기 위해 텍스트와 이미지를 통합적으로 활용하는 'CMRAG' 프레임워크와 대규모 삼중항 데이터셋을 제안하여, 다양한 시각 문서 질문 응답 벤치마크에서 단일 모달리티 기반 방법보다 우수한 성능을 입증했습니다.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

MERLIN 은 저자원 언어의 복잡한 추론 능력을 향상시키기 위해 일반 이중 언어 데이터에서 작업별 데이터로 이어지는 커리큘럼 학습 전략과 소량의 DoRA 가중치 적응을 결합한 2 단계 모델 스태킹 프레임워크를 제안합니다.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

이 논문은 동시 화성 번역 시스템의 지연 시간 평가에서 발생하는 분할 관련 구조적 편향을 해결하기 위해 새로운 지표 (YAAL, LongYAAL) 와 재분할 도구 (SoftSegmenter) 를 제안하고, 이를 OmniSTEval 툴킷을 통해 통합하여 기존 지표보다 신뢰성 있는 평가를 가능하게 합니다.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

이 논문은 기존 방법론을 그대로 적용할 경우 편미분방정식 (PDE) 과 같은 과학적 머신러닝 작업에서 디코더 전용 모델이 인코더 전용 모델보다 성능이 낮음을 규명하고, '병렬 뒤집기 (Parallel Flipping)'와 '시퀀스 더블링 (Sequence Doubling)'이라는 두 가지 새로운 양방향 모방 기법을 통해 디코더 전용 모델의 성능을 크게 향상시켜 인코더 모델과의 격차를 해소함을 보여줍니다.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

이 논문은 언어 모델의 효율적인 평가를 위해 제안된 마이크로 벤치마킹이 모델 간 성능 차이를 일관되게 순위 매기기에는 신뢰성이 부족하며, 특히 성능 차이가 작은 모델들을 구별하려면 무작위 샘플링과 유사한 수준의 큰 데이터셋 (약 250 개) 이 필요함을 실증적으로 보여줍니다.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

이 논문은 사용자의 행동으로부터 실시간으로 특정 목적을 추론하여 이를 기반으로 생성 및 평가하는 'Just-In-Time' 아키텍처를 제안함으로써, 일반 LLM 보다 훨씬 높은 품질의 맞춤형 도구와 응답을 생성할 수 있음을 보여줍니다.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

이 논문은 기존 일반 목적 평가 지표의 한계를 극복하고 의미 보존 및 유창성을 포함한 세 가지 차원에서 독일어 자동 텍스트 단순화 품질을 종합적으로 평가하는 최초의 메트릭인 'DETECT'를 제안하며, 이를 위해 LLM 기반의 합성 데이터 생성 파이프라인을 구축하고 인간 평가 데이터셋을 통해 기존 지표보다 우수한 상관관계를 입증했습니다.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

이 논문은 빅 파이브 성격 특성을 기반으로 저차원 부분 공간과 최적 계층을 탐지하여 유창성과 일반 능력을 유지하면서 대규모 언어 모델의 성격을 정밀하게 조절하는 새로운 하이브리드 계층 선택 기반 스티어링 프레임워크를 제안합니다.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL