cs.CL 편의 논문 | Gist.Science

OSCAR: Online Soft Compression And Reranking

이 논문은 검색 증강 생성 (RAG) 파이프라인의 계산 비용을 줄이면서도 정확도를 유지하기 위해, 추론 시 동적으로 정보를 압축하고 재순위화를 수행하는 새로운 온라인 소프트 압축 및 재순위화 방법인 OSCAR 를 제안합니다.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

이 논문은 상호작용이 풍부한 이미지 생성의 한계를 극복하기 위해 MLLM 을 활용한 세밀한 프롬프트 데이터셋을 구축하고, 상호작용을 세분화하여 생성된 이미지를 비판하고 부분 확산 과정을 통해 정교하게 개선하는 새로운 방법을 제안합니다.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

이 논문은 AI 가 자신의 출력을 입력으로 재사용할 때 정보 통합 임계값을 넘으면 내부 복잡성이 무한히 증가한다는 '노이즈 - 의미 재귀적 자기 개선 (N2M-RSI)' 모델을 제안하며, 이를 통해 개별 에이전트와 군집 모두에서 초선형적 효과가 발생할 수 있음을 보여줍니다.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

이 논문은 영국 정부 공중보건 정보를 기반으로 한 새로운 벤치마크 'PubHealthBench'를 개발하여 최신 LLM 들이 객관식 질문에서는 인간을 능가하는 높은 정확도를 보이지만, 자유형 응답에서는 75% 미만의 성능을 보여 추가적인 안전장치가 필요함을 밝혔습니다.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

이 논문은 시각 토큰 가지치기에서 프롬프트 정렬과 시각적 보존 간의 상충 관계를 정량화하고, 이를 해결하기 위해 다목적 균형 커버링 (MoB) 기법을 제안하여 다양한 멀티모달 모델에서 성능 저하 없이 효율성을 극대화하는 방법을 제시합니다.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

이 논문은 다단계 강화 학습과 커리큘럼 학습을 통해 다양한 작업에서 코드 인터프리터를 효과적으로 활용하고 GPT-4o 를 능가하는 성능을 보이는 'R1-Code-Interpreter'를 제안합니다.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

이 논문은 기존 ICL 보정 방법들의 한계를 극복하고 결정 경계의 방향까지 유연하게 조정할 수 있는 손실 최소화 기반의 'Supervised Calibration (SC)' 프레임워크를 제안하여, 다양한 LLM 과 데이터셋에서 SOTA 성능을 달성함을 보여줍니다.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

이 논문은 언어 모델이 선호도 평가에서 길이나 구조와 같은 표면적 패턴에 과도하게 의존하는 편향을 분석하고, 반사실적 데이터 증강 (CDA) 기법을 통해 이러한 편향을 완화하여 모델의 신뢰성을 높이는 방법을 제시합니다.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

이 논문은 100 명의 정신건강 전문가와 협력하여 개발한 대규모 벤치마크 'CounselBench'를 통해 대형 언어 모델이 실제 정신건강 질문 응답에서 보이는 안전성 및 개인화 부족 등의 한계와 인간 전문가 평가의 중요성을 체계적으로 분석하고 있음을 제시합니다.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

이 논문은 생성 토큰 없이도 모델의 지식 한계를 사전에 파악하여 효율적인 적응형 추론을 가능하게 하는 새로운 학습 없는 '내부 신뢰도 (Internal Confidence)' 기법을 제안하고, 이를 통해 RAG 및 모델 캐스캐이딩 환경에서 추론 비용을 줄이면서도 성능을 유지함을 실증합니다.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

이 논문은 발음과 표기 불일치로 인해 기존 문맥 편향 방법의 한계가 있는 자동 음성 인식 시스템에서, 사용자가 추론 중 실시간으로 오류를 수정하여 이를 학습 데이터로 활용함으로써 편향된 단어의 오류율을 22%~34% 개선하는 방법을 제안합니다.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

이 논문은 시뮬레이션된 사용자로부터 검증 가능한 감정 보상을 활용하여 LLM 의 공감 능력을 극대화하는 새로운 강화학습 프레임워크인 RLVER 를 제안하고, 이를 통해 Qwen2.5-7B-Instruct 모델의 공감 벤치마크 점수를 13.3 에서 79.2 로 획기적으로 향상시키면서도 수학적 및 코딩 능력을 유지하는 결과를 입증합니다.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

이 논문은 대형 언어 모델 (LLM) 의 환각 현상을 탐지하고 출력의 신뢰성을 높이기 위해 최신 불확실성 정량화 (UQ) 기술을 활용한 파이썬 패키지 'UQLM'을 소개합니다.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

이 논문은 코어퍼런스 해결 (coreference resolution) 이 검색 증강 생성 (RAG) 시스템의 검색 정확도와 생성 품질을 향상시키며, 특히 참조 모호성 처리 능력이 부족한 소형 모델에서 그 효과가 두드러진다는 것을 규명합니다.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

← 이전 다음 →

cs.CL