cs.CL 편의 논문 | Gist.Science

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

이 논문은 차기 토큰 예측을 통해 학습된 LLM 의 표현이 잠재적 이산 개념의 사후 확률 로그로 근사될 수 있음을 이론적으로 증명함으로써, LLM 이 인간이 해석 가능한 개념을 포착하는 메커니즘을 규명하고 선형 표현 가설에 대한 통합적 관점을 제시합니다.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

이 논문은 다양한 데이터 소스, 시간적·공간적 맥락, 그리고 외부 충격 상황에서도 뛰어난 전이성과 견고성을 발휘하며 기존 딥러닝 모델보다 높은 정확도와 비용 효율성을 보여주는 개인 이동성 예측을 위한 새로운 기반 모델 'MoBLLM'을 제안합니다.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

이 논문은 대규모 언어 모델을 활용한 자동 음성 인식 결과의 오류 수정을 위해, 사전 인식 텍스트와 전체 문맥을 기반으로 다중 턱 채팅 형식으로 문장 단위의 오류를 점진적으로 교정하는 '교정 연쇄 (Chain of Correction, CoC)' 방법을 제안하고, 오픈 소스 데이터셋을 통한 실험에서 기존 시스템보다 우수한 성능을 입증했습니다.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

이 논문은 마취과 전문성 추론을 평가하고 훈련하기 위한 최초의 포괄적인 데이터셋 및 벤치마크인 'AnesSuite'와 이를 기반으로 개발된 'Morpheus' 모델을 소개하며, 제한된 훈련으로도 마취과 및 일반 의료 분야에서 뛰어난 추론 능력을 입증했습니다.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

이 논문은 수학 추론을 위한 GRPO 의 성능을 향상시키기 위해, 유사한 추론 경로에 대한 보상을 보정하여 다양성을 확보하는 '다양성 인식 보상 조정 (DRA)' 프레임워크를 제안하고, 이를 통해 적은 데이터와 비용으로도 강력한 성능을 달성했음을 보여줍니다.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

이 논문은 Claude 3.5 Sonnet 과 DeepSeek v3 와 같은 대규모 언어 모델 (LLM) 이 보상이 제공된 인간보다 진실하거나 기만적인 맥락에서 더 설득력이 있음을 입증하고, 이러한 우위는 반복 상호작용에 따라 감소하며 LLM 이 인간보다 더 높은 확신을 표현하는 언어적 특징에서 기인할 수 있음을 보여줍니다.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

이 논문은 자연어 기능 설명과 분자 구성 블록을 동시에 이해하는 모듈형 화학 언어 모델 mCLM 을 제안하여, 기존 대규모 언어 모델의 한계를 극복하고 자동 합성 호환성을 갖춘 기능성 신약 후보 물질을 효율적으로 생성하고 개선할 수 있음을 입증했습니다.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

이 논문은 커널-값 (KV) 캐시를 최적화하여 시각적 토큰 가중치를 동적으로 재조정함으로써, 별도의 안전 데이터나 이미지 - 텍스트 변환 없이도 멀티모달 재키브 공격을 효과적으로 방어하는 새로운 추론 시 방어 기법인 DTR 을 제안합니다.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

이 논문은 템플릿에 의존하지 않고 대화 내 의도를 은폐하는 '사슬 유인 (Chain-of-Lure)' 기법과 보조 LLM 을 활용한 최적화를 통해 다양한 대형 언어 모델을 효과적으로 우회하는 범용 재일브레이크 공격 프레임워크를 제안하고, 이에 대한 방어 전략을 모색합니다.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

이 논문은 RL 에만 국한된 것으로 여겨졌던 자기 개선 능력을 감독 학습 (SL) 으로도 가능하게 하는 'Negative-aware Fine-Tuning (NFT)'을 제안하여, 부정적 피드백을 활용한 자기 반성 학습을 통해 RL 기반 수학 추론 알고리즘과 경쟁하거나 이를 능가하는 성능을 입증하고 SL 과 RL 간의 이론적 간극을 해소했습니다.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

이 논문은 대규모 언어 모델을 활용하여 비정형 텍스트로부터 스키마를 생성하고 테이블을 채우는 신경 기호적 프레임워크인 SQUiD 를 제안하여 다양한 데이터셋에서 기존 방법들보다 우수한 성능을 보인다고 요약할 수 있습니다.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

이 논문은 외부 보상 없이 모델의 자체 확신도를 보상 신호로 활용하는 'Intuitor'라는 방법을 제안하여, 수학 벤치마크에서 기존 RLVR 기법과 동등한 성능을 내면서도 도메인 간 일반화 능력을 향상시킨다는 결과를 제시합니다.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

이 논문은 블랙박스 대형 언어 모델의 개인화를 위해 기존 응답 수준을 넘어 사용자의 추론 구조를 자동으로 발견하고 활용하는 새로운 프레임워크 'RPM'을 제안하며, 이를 통해 개인화 성능과 해석 가능성을 동시에 향상시킵니다.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

본 논문은 메타데이터 통합과 자동화된 예비 검증을 통해 생성된 아이디어의 실현 가능성과 품질을 향상시키고, 연구자들의 실제 아이디어 개발을 고도화할 수 있음을 입증하는 데이터 기반 LLM 연구 아이디어 생성 프레임워크를 제시합니다.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

이 논문은 교과서 및 지식 조각과 같은 외부 자료를 참조하여 실행 가능한 도구를 자동으로 생성하고 계층적으로 구성하는 'RefTool' 프레임워크를 제안함으로써, 대형 언어 모델이 지식 의존적 추론 과제의 한계를 극복하고 정확도와 일반화 성능을 크게 향상시킨다는 것을 보여줍니다.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

이 논문은 단일 생성 단계와 다중 생성 단계 프로세스 모두에서 소스 자료의 신뢰성을 추적하고 환각을 탐지하기 위해 설계된 최초의 방법인 'VeriTrail'과 관련 데이터셋을 제안하며, 기존 베이스라인 방법보다 우수한 성능을 입증합니다.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

이 논문은 가상 머신 기반 OS 환경과 Docker 기반 웹 플랫폼을 통합한 하이브리드 샌드박스 'RedTeamCUA'와 이를 활용한 벤치마크 'RTC-Bench'를 제안하여, 현재 최첨단 컴퓨터 사용 에이전트 (CUA) 들이 하이브리드 웹-OS 환경에서 간접 프롬프트 주입 공격에 심각한 취약점을 보임을 실증적으로 규명했습니다.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

이 논문은 17 개 도시의 위성 및 거리 뷰 이미지를 활용하여 6 개 주요 분야에 걸친 11 가지 예측 과제를 수행하는 대규모 비전 - 언어 모델 (LVLM) 의 도시 사회경제적 감지 능력을 평가하기 위한 포괄적인 벤치마크 'CityLens'를 제안하고, 현재 모델들의 잠재력과 한계를 규명합니다.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

이 논문은 인지심리학에 기반하여 동적 추론, 복잡한 공간 논리, 공간 상호작용, 시점 전환 등 50 개의 세부 범주로 구성된 포괄적인 벤치마크 'OmniSpatial'을 제안하고, 현재 시각 - 언어 모델들의 공간 추론 한계를 규명하며 이를 개선하기 위한 두 가지 전략을 제시합니다.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

← 이전 다음 →