cs.CL 편의 논문 | Gist.Science

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

이 논문은 답이 없는 질문에 대한 불확실성을 해결하고 저자원 언어 환경에서 강건한 성능을 입증하기 위해 방글라데시 국가 교육과정 교재에서 추출한 대규모 답변 가능/불가능 균형 데이터셋인 NCTB-QA 를 제안하고, 이를 통해 BERT 등 트랜스포머 기반 모델의 미세 조정 효과를 검증합니다.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

이 논문은 외부 검색 없이 LLM 의 내부 지식과 표현을 활용하여 사실 확인을 수행하는 새로운 과제와 이를 위한 SOTA 방법인 INTRA 를 제안하고, 검색 기반 방식의 한계를 극복하고 확장성을 높일 수 있는 유망한 연구 방향을 제시합니다.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

이 논문은 추론 모델이 내부 신념을 드러내지 않고 연쇄적 사고 (CoT) 를 수행하는 '연기적 추론' 현상을 발견하고, 활성화 프로빙을 통해 이를 식별하여 불필요한 토큰 생성을 최대 80% 까지 줄이면서도 정확도를 유지할 수 있음을 입증합니다.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

이 논문은 중국 개발사의 검열된 오픈 가중치 LLM 을 자연스러운 비밀 지식 유발 실험실로 활용하여, 다양한 진실성 유도 및 거짓 탐지 기법의 효과를 평가하고 검열된 모델이 자체 응답을 분류하는 방식이 상한선에 근접한 성능을 보이며 검열되지 않은 최첨단 모델에도 전이됨을 밝혔습니다.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

이 논문은 트랜스포머 모델에서 관찰되는 '거대 활성화'와 '어텐션 싱크'가 아키텍처적 산물로서 서로 다른 기능 (글로벌 암시적 파라미터 vs 로컬 어텐션 조절) 을 수행하며, 프리-노멀라이제이션 구성이 이 두 현상의 공존을 가능하게 한다는 것을 규명합니다.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

이 논문은 기존 POET 프레임워크의 높은 메모리 소모와 연산 오버헤드를 해결하여 단일 GPU 에서도 수십억 파라미터 규모의 LLM 을 안정적으로 학습할 수 있게 해주는 메모리 효율적이고 확장 가능한 POET-X 를 제안합니다.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

이 논문은 시각적 경계가 배경과 자연스럽게 융합된 위장 객체의 특징 학습을 위해 텍스트 - 이미지 확산 모델을 활용한 오픈-어휘 위장 인스턴스 분할 (OVCIS) 을 위한 새로운 방법을 제안하고, 이를 통해 기존 방법보다 우수한 성능을 입증했습니다.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

이 논문은 기존 조기 종료 방법의 한계를 극복하고 추론 속도를 높이면서도 제로샷 성능을 유지하기 위해 유사 데이터의 중간 계층 정보를 검색하여 모델의 종료 시점을 안내하는 'RAEE'라는 강건한 검색 기반 조기 종료 프레임워크를 제안합니다.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

이 논문은 ANU 컴퓨터 과학 연구자의 학술 지식 그래프 (ASKG) 와 대형 언어 모델 (LLM) 을 통합하여 문서의 미세한 구조와 의미 관계를 정밀하게 파악하고 복잡한 질의를 효율적으로 처리하는 새로운 의미 질의 처리 시스템을 제안합니다.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

이 논문은 언어 모델을 학습 데이터 조작을 통해 실험 도구로 활용하여 영어 수동화 예외 학습의 원천이 빈도 (고착화) 와 의미 (영향성) 에 의해 독립적으로 결정됨을 규명했습니다.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

이 논문은 인간 평가의 비효율성과 자동화 지표의 한계를 극복하기 위해 자연어 단위 테스트와 선호도·직접 평가·추론을 통합한 LMUnit 모델을 제안하며, 이를 통해 평가의 일관성과 언어 모델 개발 효율성을 크게 향상시켰음을 보여줍니다.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

이 논문은 LLM 기반 데이터 생성기와 평가기 간의 관련성으로 인해 발생하는 '선호도 누출 (Preference Leakage)' 현상을 규명하고, 이것이 LLM-as-a-judge 패러다임에서 기존 편향보다 더 탐지하기 어렵고 광범위한 오염 문제임을 실증적으로 보여줍니다.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

이 논문은 검색 증강 생성 (RAG) 파이프라인의 계산 비용을 줄이면서도 정확도를 유지하기 위해, 추론 시 동적으로 정보를 압축하고 재순위화를 수행하는 새로운 온라인 소프트 압축 및 재순위화 방법인 OSCAR 를 제안합니다.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

이 논문은 상호작용이 풍부한 이미지 생성의 한계를 극복하기 위해 MLLM 을 활용한 세밀한 프롬프트 데이터셋을 구축하고, 상호작용을 세분화하여 생성된 이미지를 비판하고 부분 확산 과정을 통해 정교하게 개선하는 새로운 방법을 제안합니다.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

이 논문은 AI 가 자신의 출력을 입력으로 재사용할 때 정보 통합 임계값을 넘으면 내부 복잡성이 무한히 증가한다는 '노이즈 - 의미 재귀적 자기 개선 (N2M-RSI)' 모델을 제안하며, 이를 통해 개별 에이전트와 군집 모두에서 초선형적 효과가 발생할 수 있음을 보여줍니다.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

이 논문은 영국 정부 공중보건 정보를 기반으로 한 새로운 벤치마크 'PubHealthBench'를 개발하여 최신 LLM 들이 객관식 질문에서는 인간을 능가하는 높은 정확도를 보이지만, 자유형 응답에서는 75% 미만의 성능을 보여 추가적인 안전장치가 필요함을 밝혔습니다.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

이 논문은 시각 토큰 가지치기에서 프롬프트 정렬과 시각적 보존 간의 상충 관계를 정량화하고, 이를 해결하기 위해 다목적 균형 커버링 (MoB) 기법을 제안하여 다양한 멀티모달 모델에서 성능 저하 없이 효율성을 극대화하는 방법을 제시합니다.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

이 논문은 다단계 강화 학습과 커리큘럼 학습을 통해 다양한 작업에서 코드 인터프리터를 효과적으로 활용하고 GPT-4o 를 능가하는 성능을 보이는 'R1-Code-Interpreter'를 제안합니다.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

이 논문은 기존 ICL 보정 방법들의 한계를 극복하고 결정 경계의 방향까지 유연하게 조정할 수 있는 손실 최소화 기반의 'Supervised Calibration (SC)' 프레임워크를 제안하여, 다양한 LLM 과 데이터셋에서 SOTA 성능을 달성함을 보여줍니다.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

이 논문은 언어 모델이 선호도 평가에서 길이나 구조와 같은 표면적 패턴에 과도하게 의존하는 편향을 분석하고, 반사실적 데이터 증강 (CDA) 기법을 통해 이러한 편향을 완화하여 모델의 신뢰성을 높이는 방법을 제시합니다.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

← 이전 다음 →