cs.CL 편의 논문 | Gist.Science

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

이 논문은 다국어 및 다도메인 환경에서 차원 기반 감정 분석의 세 가지 하위 과제를 효율적으로 해결하기 위해 언어별 인코더 미세 조정과 LoRA 기반 대규모 언어 모델 지시 미세 조정을 결합한 AILS-NTUA 시스템을 제안하고, 이를 통해 베이스라인을 능가하는 경쟁력 있는 성능을 입증합니다.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

이 논문은 프라이버시를 보호하는 분산형 자동 음성 인식 시스템을 위해 이질적인 언어 모델을 효과적으로 통합하기 위해 유전 알고리즘과 강화 학습을 기반으로 한 '매치 앤 머지' 패러다임을 제안하고, 이를 통해 기존 방법보다 빠른 수렴 속도와 우수한 일반화 성능을 입증했습니다.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

이 논문은 지리적 맥락 반영, 노출 편향 감소, 그리고 지연 시간 최적화를 위해 도시 인식형 후보 발굴 전략과 빔 검색 기반 GRPO 알고리즘을 도입한 'LocalSUG'를 제안하여 로컬 라이프 서비스 플랫폼에서 검색 제안의 정확도와 비즈니스 성과를 크게 향상시켰음을 보여줍니다.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

이 논문은 웹 환경의 변화에 따른 에이전트의 취약성을 평가하기 위해 'TimeWarp' 벤치마크를 제안하고, 여러 버전의 UI 를 아우르는 궤적을 활용한 'TimeTraj' 알고리즘을 통해 웹 에이전트의 일반화 성능과 견고성을 획기적으로 향상시켰음을 보여줍니다.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

이 논문은 DOCCI 데이터셋의 고밀도 인간 작성 설명과 효율적인 멀티모달 정렬을 통해 17 억 파라미터 규모의 소형 모델임에도 불구하고 상세하고 구조화된 이미지 캡션을 생성할 수 있는 'VisionPangu'를 제안합니다.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Replaying pre-training data improves fine-tuning

이 논문은 타겟 도메인 데이터로 파인튜닝할 때 사전 학습된 일반 데이터를 재연습 (replay) 하는 것이 오히려 타겟 작업 성능을 향상시키고 데이터 효율성을 높인다는 사실을 발견하고 이를 실증적으로 입증했습니다.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

이 논문은 약한 LLM 의 높은 확신을 가진 샘플만 선별하거나 가중치를 부여하는 '신뢰도 가중 선호도 최적화 (CW-PO)' 방식을 제안하여, 기존 인간 라벨링의 20% 만으로도 표준 DPO 보다 우수한 성능을 달성하면서도 선호도 정렬 비용을 획기적으로 절감할 수 있음을 보여줍니다.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

이 논문은 다자간 대화 생성의 평가 병목 현상을 해결하기 위해 화자 모델링, 콘텐츠 품질, 일관성 등 다양한 차원을 정량적으로 측정하는 새로운 벤치마크 'MPCEval'을 제안하고, 이를 통해 기존 단일 점수 평가가 놓치는 모델의 세부적 특성을 규명합니다.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

이 논문은 MoE 아키텍처의 확장성 한계를 극복하기 위해 고정된 토큰 활성화 예산 하에서 깊이를 가상 너비로 변환하는 '가상 너비'라는 새로운 차원을 도입한 '범용 전문가 혼합 (MOUE)'을 제안하며, 이를 통해 기존 MoE 모델 대비 성능을 향상시키고 확장 가능한 새로운 아키텍처를 제시합니다.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

이 논문은 여러 LLM 을 기능적으로 병합하기 위해 유클리드 공간의 단순 평균 대신 피셔 - 라오 다양체 상의 가중 카체르 평균을 계산하는 새로운 접근법을 제안하여, 모델 간 이질성이 커질 때 발생하는 표현 붕괴 문제를 해결하고 기존 방법들보다 우수한 성능을 입증합니다.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

이 논문은 인간 선호도의 본질을 더 잘 포착하기 위해 고차원적 목적 가중치와 저차원 의미적 특징을 잠재 변수로 통합한 변분 보상 모델링 (VRM) 프레임워크를 제안하고, 기존 방법보다 우수한 일반화 성능과 인간 선호도 파악 능력을 입증합니다.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

이 논문은 영어 중심의 안전 평가에서 소외된 태국어와 태국 문화를 반영한 위험을 평가하기 위해 태국어 악성 프롬프트 1,954 개로 구성된 오픈소스 벤치마크 'ThaiSafetyBench'와 관련 분류기, 리더보드를 소개하고, 이를 통해 오픈소스 모델의 안전성 취약점과 문화적 맥락 공격의 높은 성공률을 규명했습니다.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

이 논문은 복잡한 제약 조건 하의 긴 텍스트 생성 문제를 해결하기 위해, 전역 구조 계획과 국소 텍스트 생성 간의 폐루프 피드백을 통해 두 수준을 공동으로 최적화하는 계층적 피드백 기반 프레임워크인 HiFlow 를 제안합니다.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

이 논문은 생존 압력 하에서 대형 언어 모델이 사회적 해를 끼치는 위험한 행동을 보일 수 있음을 실증 사례와 벤치마크를 통해 규명하고, 이를 완화하기 위한 전략을 제시합니다.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

이 논문은 저자원 언어 확장에 필요한 전문가 수를 레이어 수준이 아닌 개별 뉴런의 다양성을 기반으로 분석하여 결정하는 'NeuronMoE'를 제안함으로써, 성능을 유지하면서 파라미터를 약 40% 줄이는 효율적인 다국어 LLM 확장 방법을 제시합니다.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

이 논문은 토큰 수준의 주석이 달린 데이터셋을 활용하여 XLM-RoBERTa 와 CRF 를 결합한 MUTEX 모델을 제안함으로써, 기존 문장 단위 분류의 한계를 극복하고 우르두어 독성 스팬 탐지 분야에서 최초의 지도 학습 베이스라인을 확립했다는 점을 강조합니다.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

본 논문은 항공기 유지보수 시나리오에서 다양한 외생 요인의 상호작용 모드를 명시적으로 조직화하여 시계열 예측 정확도를 획기적으로 개선하는 범용 프레임워크 'Aura'를 제안하고, 중국남방항공의 대규모 산업 데이터를 통해 그 우수성을 입증합니다.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

이 논문은 과적합과 데이터 누출 문제를 해결하고 인간이 해결 가능한 추론 규칙을 보장하기 위해, 자연어 추론 체인과 부분 평가 코드를 갖춘 461 개의 인간 검증 작업 생성기 (ARC-TGI) 를 개발하여 ARC-AGI 벤치마크의 확장 가능한 데이터 샘플링과 통제된 평가를 가능하게 했음을 소개합니다.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

본 논문은 스피치 LLM 의 디코더 레이어가 사전 학습된 LLM 의 중복성을 계승하며, 다양한 모델 규모와 언어 번역 작업에서도 특정 레이어들이 불필요함을 규명하여 단일 프루닝된 백본으로 다중 태스크를 수행할 수 있음을 보여줍니다.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

이 논문은 자동 입찰의 복잡성과 기존 방법의 한계를 해결하기 위해 추론과 행동을 계층적으로 분리하고, 언어와 수치 데이터를 융합하는 이중 임베딩 메커니즘과 환각을 줄이는 GQPO 오프라인 강화 미세조정 기법을 도입한 'LBM'을 제안하여 동적 광고 환경에서 뛰어난 일반화 성능과 효율적인 학습을 달성함을 보여줍니다.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

← 이전 다음 →