cs.CL 편의 논문 | Gist.Science

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

이 논문은 대규모 멀티모달 모델의 소수 샷 시각적 질문 응답 (VQA) 성능을 향상시키기 위해, 태스크 관련 시각적 특징에서 추출된 소프트 프롬프트를 메타 학습 방식으로 증류하고 테스트 시 적응하는 '메타 적응형 프롬프트 증류' 방법을 제안하며, 이를 통해 기존 인-컨텍스트 학습 및 파라미터 효율적 파인튜닝 기법보다 우수한 성능을 입증했습니다.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

이 논문은 비디오 데이터를 활용하여 컨텍스트 기반 이미지 편집을 직접 학습할 수 있는 확장 가능한 방법론인 VINCIE 를 제안하고, 블록-인과적 확산 트랜스포머와 새로운 벤치마크를 통해 기존 전문가 모델에 의존하지 않는 최첨단 성능을 입증합니다.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

이 논문은 다양한 모달리티의 공헌도를 기반으로 가중치를 부여하고 오류 분포 불균형 지수 (EDDI) 를 활용하여 성능과 공정성을 동시에 최적화하는 공정한 전자건강기록 예측 프레임워크인 FAME 을 제안하고, 이를 통해 다양한 예측 작업에서 기존 모델 대비 향상된 공정성과 성능을 입증합니다.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

이 논문은 진단을 위해 반복적으로 검사를 요청하고 해석하는 가설 기반 불확실성 인식 언어 에이전트 (LA-CDM) 를 제안하며, 지도 학습과 강화 학습을 결합한 하이브리드 훈련 방식을 통해 임상 의사결정의 정확성과 효율성을 향상시켰음을 보여줍니다.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

이 논문은 정보 비대칭을 활용하여 일반 컴퓨터 사용 에이전트를 위한 고품질 태스크와 궤적 데이터를 자동 생성하는 확장성 있고 비용 효율적인 파이프라인인 AgentSynth 를 제안하며, 이를 통해 6,000 개 이상의 다양한 태스크를 생성하고 기존 LLM 에이전트의 성능 한계를 입증했습니다.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

이 논문은 이질적인 비전 - 언어 모델 간의 아키텍처 및 토큰 차이로 인한 지식 증류의 한계를 극복하기 위해 '재보정 (Recalibrator)'을 도입하여 대규모 모델의 성능을 소형 모델로 효과적으로 이전하는 범용 증류 프레임워크인 'GenRecal'을 제안하고, 이를 통해 기존 오픈소스 및 폐쇄형 대규모 모델들을 능가하는 성능을 입증했습니다.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

이 논문은 NOI 와 ICPC 의 232 개 문제를 포함하는 새로운 벤치마크 'OJBench'를 제안하여, 최신 LLM 들조차도 고난이도 경쟁 수준의 코드 추론 작업에서는 여전히 심각한 한계를 겪고 있음을 37 개 모델 평가를 통해 입증했습니다.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

이 논문은 긴 문맥을 가진 LLM 작업의 실패 원인을 세 가지 노이즈 유형으로 분류하는 이론적 프레임워크를 제시하고, 이를 통해 다중 에이전트 청킹 전략이 단일 샷 방식보다 더 효과적일 수 있는 조건을 규명하며 장기 문맥 처리의 최적 경로를 제시합니다.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

이 논문은 합성 데이터나 주석 데이터 없이 강화 학습을 통해 초장문 텍스트 생성 능력을 배양하는 'LongWriter-Zero'를 제안하며, 기존 SFT 기반 방법론과 100B+ 규모의 대형 모델들을 능가하는 최첨단 성능을 입증합니다.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

이 논문은 기존 평가 지표들의 한계를 극복하고 인간 수준의 텍스트 음성 변환 (TTS) 시스템을 평가하기 위해 TTSDS2 지표를 제안하고, 11,000 개 이상의 주관적 평가 데이터와 다국어 벤치마크 등 관련 리소스를 공개합니다.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

이 논문은 강화 학습 후 학습 (RPT) 이 학습 데이터와 유사한 작업에서는 큰 성능 향상을 보이지만, 추론 패턴이 다른 미처 보지 못한 도메인으로의 일반화 능력은 일관되지 않거나 사라질 수 있음을 관찰 및 개입 연구를 통해 규명했습니다.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

이 논문은 인간의 의사결정에서 가치의 상충 관계를 설명하는 인지 모델을 언어 모델에 적용하여, 프롬프트 조작과 강화학습 후 훈련 과정을 통해 모델의 가치 균형이 어떻게 변화하고 진단될 수 있는지를 체계적으로 규명했습니다.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

이 논문은 특허 선행기술 검색의 교차 도메인 어려움을 평가하기 위해 도메인별 분할을 명시적으로 도입한 새로운 벤치마크 'DAPFAM'을 제안하고, 이를 통해 교차 도메인 환경에서 검색 성능이 크게 저하된다는 사실을 다양한 실험을 통해 입증했습니다.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

이 논문은 언어 유형론에서 의미 지도 모델 구축 시 확장성과 해석 가능성 간의 균형을 맞추기 위해 데이터 기반 추론과 전문가 지식을 결합한 대화형 시각화 도구인 XISM 을 제안하고, 이를 통해 의미 지도 구성의 투명성과 제어 가능성을 향상시켰음을 보여줍니다.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

이 논문은 다단계 질문 답변 작업에서 최종 답변의 정확성과 효율성을 동시에 최적화하기 위해, 질문의 난이도에 따라 검색 단계를 적응적으로 줄이는 두 단계 미세 조정 프레임워크인 FrugalRAG 를 제안하며, 소량의 데이터로도 기존 방법 대비 검색 비용을 절반으로 줄이면서 최첨단 성능을 달성함을 보여줍니다.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

이 논문은 희소 오토인코더를 활용하여 언어 특징의 과도한 사전 활성화 값을 분석하고 제어하는 SASFT 기법을 제안함으로써, 대규모 언어 모델의 예기치 않은 코드 스위칭을 50% 이상 감소시키면서도 다국어 능력을 유지하거나 향상시킵니다.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

이 논문은 UK Biobank 의 대규모 코호트를 기반으로 폐활량 측정 그래프를 이해하고 COPD 진단에 대한 해석 가능한 보고서를 생성할 수 있는 최초의 멀티모달 대형 언어 모델인 SpiroLLM 을 제안하여, 기존 AI 모델의 설명 부족 문제를 해결하고 임상적 신뢰성을 입증했습니다.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

이 논문은 주관적 추론에서 다양성을 강화하기 위해 다양한 역할 관점과 토큰 수준의 다양성을 도입한 'MultiRole-R1' 프레임워크를 제안하며, 이를 통해 도메인 내외 정확도를 크게 향상시키고 객관적 추론 작업에서도 성능을 개선함을 보여줍니다.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

이 논문은 대규모 언어 모델이 의미 없는 토큰을 통한 암기 학습 후 의미 있는 프롬프트로 미세 조정하는 '기억 후 일반화' 프레임워크를 통해, 단순 암기 데이터에서도 구조화된 의미 표현이 발현되어 일반화가 가능함을 실험적으로 입증했습니다.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

이 논문은 복잡한 질의를 구조화된 하위 질문으로 분해하고 LLM 을 지식 라우터로 활용하여 다단계 정제 과정을 통해 관련 정보를 선별하는 에이전트 기반 RAG 프레임워크인 'DeepSieve'를 제안하며, 이를 통해 기존 방식보다 향상된 추론 깊이와 검색 정밀도를 달성함을 보여줍니다.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

← 이전 다음 →