cs.CL 편의 논문 | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

이 논문은 강화학습 기반의 구조화된 보상 함수와 DPO 에서 영감을 받은 '직접 일관성 최적화 (DCO)' 방법을 제안하여, 명시적 보상 모델 없이도 다양한 언어 간 지식 일관성을 크게 향상시키고 기존 방법들을 능가하는 다국어 대규모 언어 모델 최적화 솔루션을 제시합니다.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

이 논문은 전 단어 목록이 지프의 법칙을 따를 때, 빈도 순위가 감소하는 힐 함수에 기반한 하위 집합 선택 모델을 통해_stopword_의 빈도 분포가 베타 순위 함수 (BRF) 로, 그리고 비-stopword 는 2 차 함수로 적합하게 설명됨을 이론적 및 실증적으로 입증합니다.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

이 논문은 데이터 증강과 특징 향상 기법을 적용하여 전통적 분류기와 다양한 대규모 언어 모델을 비교 분석한 결과, 오픈소스 gpt-oss-20b 모델이 가장 높은 성능을 보였으며 데이터셋과 모델 간 상호작용이 혐오 발언 탐지 효율성에 결정적임을 규명했습니다.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

이 연구는 다국어 DUTA10K 데이터셋을 기반으로 Llama 3.2 와 Gemma 3 와 같은 대규모 언어 모델 (LLM) 이 기존 머신러닝 및 BERT 모델보다 40 개 이상의 복잡한 불법 카테고리 분류에서 뛰어난 성능을 보이며 온라인 마켓플레이스의 불법 콘텐츠 탐지 및 규제에 효과적임을 입증했습니다.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

이 논문은 미국 대법원 구두 변론 기록을 기반으로 AI 가 모의 재판 훈련에서 판사들의 질문을 효과적으로 시뮬레이션할 수 있는지 검증하고, 현실성과 교육적 유용성을 평가하는 새로운 프레임워크를 제시하여 AI 모델이 질문의 다양성 부족과 아첨 성향 등 여전히 해결해야 할 과제가 있음을 밝힙니다.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

이 논문은 AI 모델을 생물학적 유기체와 유사하게 접근하여 15 개의 하위 분야로 구성된 분류 체계, 행동 유전학 기반의 4 껍질 모델, 신경 MRI 진단 도구, 5 층 진단 프레임워크 및 임상적 치료 체계를 포함한 '모델 의학 (Model Medicine)'이라는 새로운 연구 프로그램을 제시합니다.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

이 논문은 제미니 딥 싱크 기반의 신경-심볼릭 시스템을 활용하여 우주 끈에서 방출되는 중력파의 파워 스펙트럼에 대한 새로운 정확한 해석적 해를 도출함으로써 인공지능이 이론 물리학의 미해결 문제를 자율적으로 해결하고 수학적 발견을 가속화할 수 있음을 입증합니다.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

이 논문은 기존 벤치마크의 한계를 극복하고 모델의 지능을 평가하기 위해 예산 제약 하의 상호작용 과정을 통해 추론 능력을 측정하는 '인터랙티브 벤치마크' 프레임워크를 제안하고, 이를 논리·수학 증명 및 전략적 게임 환경에서 검증하여 상호작용 시나리오에서의 개선 여지가 여전히 크다는 것을 보여줍니다.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

이 논문은 기존 벤치마크의 한계를 극복하고 모델 정렬에 필수적인 리스트와이즈 평가 패러다임을 도입한 포괄적인 메타 평가 벤치마크 'IF-RewardBench'를 제안하여, 현재 지시 따르기 평가용 저지 모델들의 결함을 드러내고 하류 작업 성능과의 높은 상관관계를 입증했습니다.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

이 논문은 R 통계 생태계의 데이터 분포 정보를 함수 표현에 통합한 경량 검색 모델 DARE 와 이를 활용한 R 코딩 에이전트 RCodingAgent 를 제안하여, 기존 LLM 에이전트의 통계적 지식 부족과 도구 검색의 한계를 극복하고 R 패키지 검색 및 코드 생성 성능을 획기적으로 향상시켰습니다.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

이 논문은 예산과 다양성 같은 제약 조건을 가진 장거리 여행 계획 문제를 해결하기 위해, 전략적 조정과 병렬 실행을 결합하고 거래형 모니터링 및 협상 프로토콜을 통해 제약 준수를 보장하는 계층적 다중 에이전트 프레임워크 'HiMAP-Travel'을 제안하며, TravelPlanner 벤치마크에서 기존 Sequential 기반 방법론들을 크게 능가하는 성능을 입증합니다.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

이 논문은 동일한 LLM 레이어를 기반으로 하단 모델이 긴 입력을 다중 그레인 표현으로 압축하고 상단 모델이 이를 복원하는 '자기 주입 (self-injection)' 아키텍처를 제안함으로써, 기존 모델의 제한된 컨텍스트 창을 효율적으로 확장하면서도 메모리 사용량과 추론 지연을 획기적으로 줄이는 방법을 제시합니다.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

이 논문은 Mixture-of-Experts(MoE) 와 Low-Rank Adaptation(LoRA) 을 결합하고 전문가 인식 부정 샘플링 (EANS) 전략을 도입하여 작업 간 충돌을 해소하고 범용 멀티모달 임베딩의 태스크 스케일링을 가능하게 하는 TSEmbed 프레임워크를 제안하며, 이를 통해 MMEB 벤치마크 및 실제 산업 데이터에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

이 논문은 AI Flow 패러다임과 엣지 - 클라우드 협업 아키텍처를 활용하여 원본 이미지의 수학적 복원을 방지하면서도 동적 윤곽 시각 언어를 통해 의미 있는 행동 인식과 시각적 참조를 가능하게 하는 새로운 프라이버시 보호 감시 프레임워크를 제안합니다.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

이 논문은 다중 턱 상호작용에서 이전 추론에 과도하게 집착하는 '맥락 관성' 문제를 해결하기 위해, 모델의 단일 턱 능력을 안정적 기준점으로 활용하는 강화 학습 기법인 RLSTA 를 제안하여 다양한 도메인에서 성능을 획기적으로 개선함을 보여줍니다.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

이 논문은 대규모 언어 모델 (LLM) 을 활용한 의미 필터링의 선형적 호출 한계를 극복하기 위해, 튜플을 의미 클러스터로 그룹화하고 샘플링 및 투표 전략을 통해 LLM 호출 횟수를 부분 선형 복잡도로 획기적으로 줄이면서도 정확도를 유지하는 '클러스터링 - 샘플링 - 투표 (CSV)' 프레임워크를 제안합니다.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

이 논문은 대규모 언어 모델의 위치 인코딩을 의미 임베딩과 분리하여 '주의 중력장 (AGF)' 개념을 도입함으로써 뉴턴의 만유인력 법칙과 일치하는 이론적 틀을 제시하고 모델 최적화 및 해석 가능성 향상을 도모합니다.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

이 논문은 장문맥 LLM 과 사실 기반 메모리 시스템 (Mem0) 을 정확도와 비용 측면에서 비교 분석하여, 대화 길이가 길어질수록 메모리 시스템이 비용 효율성이 높아진다는 결론을 도출하고 생산 환경에서의 최적 아키텍처 선택 기준을 제시합니다.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

이 논문은 890 개의 결과를 메타 분석하여 단답형 채점에서 LLM 의 성능이 인간 전문가의 난이도 인식과 무관하며, 디코더 전용 아키텍처가 인코더보다 현저히 낮고 토크나이저 어휘 크기 증가에도 한계가 있으며, 고위험 교육 맥락에서 인종 차별적 편향이 발생할 수 있음을 규명했습니다.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← 이전 다음 →