cs.CL 편의 논문 | Gist.Science

Safety Training Persists Through Helpfulness Optimization in LLM Agents

이 논문은 LLM 에이전트 환경에서 안전성 학습이 이후의 유용성 최적화 과정에서도 유지되며, 안전성과 유용성 간의 트레이드오프가 선형 파레토 프론티어를 형성한다는 점을 밝혀, 단일 지향적 학습이 극단적 결과를 초래하고 동시 학습이 이상적인 균형을 찾지 못함을 보여줍니다.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

이 논문은 기존 조기 및 후기 융합 방식의 한계를 극복하기 위해, 에지 기반 이분 부분 그래프 검색, 쿼리 관련 노드 확장, 그리고 별 그래프 수준의 LLM 추론을 결합한 HELIOS 모델을 제안하여 OTT-QA 벤치마크에서 기존 최첨단 모델 대비 현저히 우수한 성능을 달성했다고 요약할 수 있습니다.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

이 논문은 NLLB-200 모델의 임베딩 기하학을 분석하여 언어 간 계통적 구조와 보편적 개념 연관성을 학습했음을 입증하고, 이를 통해 다국어 신경망이 언어 중립적인 개념 저장소를 형성한다는 증거를 제시합니다.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

이 논문은 확산 언어 모델 (DLM) 의 학습 데이터 암기 행동을 체계적으로 분석하여, 샘플링 해상도와 암기 확률 간의 단조 증가 관계를 이론적으로 증명하고, 기존 autoregressive 모델에 비해 DLM 이 개인 식별 정보 (PII) 유출 위험이 낮음을 실험적으로 입증했습니다.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

이 논문은 다양한 Romanian 방송 및 대화 데이터를 포함한 RO-N3WS 벤치마크를 소개하여 저자원 및 분포 외 조건에서 자동 음성 인식 (ASR) 모델의 일반화 성능을 크게 향상시키는 방법을 제시합니다.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

이 논문은 시간 의존적 텍스트 시각화를 위한 방향성 그래프 모델과 LLM 기반 실험 프레임워크를 제안하고, 사용자의 패턴 인식 어려움과 개인별 차이를 규명하여 일률적 접근법 대신 사용자 맞춤형 시각화의 필요성을 강조합니다.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

이 논문은 메타데이터 기반 게이트 메커니즘을 통해 저랭크 업데이트를 조절하는 GLoRIA 프레임워크를 제안하여, 제한된 파라미터로 다양한 방언의 ASR 성능을 극대화하고 해석 가능한 적응 패턴을 제공하는 것을 보여줍니다.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

이 논문은 텍스트 중심의 기존 안전 평가 한계를 극복하기 위해 자동 크로스모달 페이로드 생성, 다중 턴 공격 알고리즘, 그리고 인터-턴 모달리티 스위칭 (ITMS) 을 통합한 오픈소스 플랫폼 'MUSE'를 제안하며, 이를 통해 멀티모달 LLM 의 정렬이 오디오, 이미지, 비디오 등 다른 모달리티로 일반화되지 않을 수 있음을 실험적으로 입증했습니다.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

이 논문은 토큰 반올림 문제를 해결하기 위해 연속 임베딩 공간에서의 확산과 컨텍스트 기반 자동회귀 디코더를 결합한 'CoDAR' 프레임워크를 제안함으로써, 기존 연속 확산 언어 모델의 성능 한계를 극복하고 강력한 이산 확산 모델과 경쟁 가능한 생성 품질을 달성했음을 보여줍니다.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

이 논문은 시각적 대비 쌍을 활용하여 VLM 의 환각을 완화하고 자기 개선 학습을 통해 시각 추론 능력을 향상시키는 새로운 프레임워크인 VC-STaR 과 이를 기반으로 구축된 VisCoR-55K 데이터셋을 제안합니다.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

이 논문은 추천 시스템과 자연어 처리에서 기존 생성자 - 평가자 프레임워크의 병렬화 한계와 정확도 문제를 해결하기 위해, Kuaishou 의 온라인 추천 시스템에서 실질적인 수익 증대를 이끌어낸 'FlashEvaluator'를 제안하며, 이는 모든 시퀀스를 단일 순전파로 처리하여 계산 복잡도를 아선형으로 낮추고 시퀀스 간 비교를 통해 정확도를 향상시킵니다.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

이 논문은 언어적 특징, 감정, 성격이라는 세 가지 도메인과 세 가지 지정 수준 (L1~L3) 으로 구성된 계층적 벤치마크 'SteerEval'을 제안하여 대규모 언어 모델의 행동 제어 가능성을 체계적으로 평가하고, 세밀한 수준일수록 제어 성능이 저하된다는 사실을 규명합니다.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

이 논문은 금융, 의료, 법률 등 전문 도메인의 특수한 위험에 대응하기 위해 ExpGuardMix 데이터셋을 구축하고 이를 기반으로 기존 모델보다 뛰어난 성능을 보이는 ExpGuard라는 전용 콘텐츠 moderation 모델을 제안합니다.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

이 논문은 긴 컨텍스트 윈도우 환경에서 CPU 기반 토크나이저의 병목 현상을 해결하기 위해 GPT-2 병합 규칙을 따르는 GPU 가속 바이트 레벨 BPE 토크나이저 'GPUTOK'를 개발하여, 긴 입력 시 HuggingFace 및 tiktoken 대비 최대 7.6 배 빠른 성능을 달성하면서도 출력 품질을 유지함을 보여줍니다.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

이 논문은 외부 REPL 환경에서 프롬프트를 처리하는 재귀적 언어 모델 (RLM) 을 재현한 결과, 재귀 깊이를 1 로 유지할 때는 복잡한 추론 성능이 향상되지만 깊이를 2 로 늘리거나 단순 검색 작업에 적용하면 모델이 과도하게 사고하여 성능이 저하되고 실행 시간 및 비용이 기하급수적으로 증가하는 '과도한 사고 (overthinking)' 현상을 발견했습니다.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

이 논문은 Nsys/NCU 기반의 검증과 루브릭 기반의 에이전트 강화학습을 통해 커널 생성부터 호스트 측 설정까지의 전체 GPU 프로그램 생성을 자동화하고, KernelBench 에서 100% 에 가까운 성공률과 기존 모델 대비 최대 2.73 배의 속도 향상을 달성한 'StitchCUDA' 프레임워크를 제안합니다.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

← 이전 다음 →

cs.CL