Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

이 논문은 차기 토큰 예측을 통해 학습된 LLM 의 표현이 잠재적 이산 개념의 사후 확률 로그로 근사될 수 있음을 이론적으로 증명함으로써, LLM 이 인간이 해석 가능한 개념을 포착하는 메커니즘을 규명하고 선형 표현 가설에 대한 통합적 관점을 제시합니다.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

이 논문은 대규모 언어 모델을 활용한 자동 음성 인식 결과의 오류 수정을 위해, 사전 인식 텍스트와 전체 문맥을 기반으로 다중 턱 채팅 형식으로 문장 단위의 오류를 점진적으로 교정하는 '교정 연쇄 (Chain of Correction, CoC)' 방법을 제안하고, 오픈 소스 데이터셋을 통한 실험에서 기존 시스템보다 우수한 성능을 입증했습니다.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

이 논문은 Claude 3.5 Sonnet 과 DeepSeek v3 와 같은 대규모 언어 모델 (LLM) 이 보상이 제공된 인간보다 진실하거나 기만적인 맥락에서 더 설득력이 있음을 입증하고, 이러한 우위는 반복 상호작용에 따라 감소하며 LLM 이 인간보다 더 높은 확신을 표현하는 언어적 특징에서 기인할 수 있음을 보여줍니다.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

이 논문은 템플릿에 의존하지 않고 대화 내 의도를 은폐하는 '사슬 유인 (Chain-of-Lure)' 기법과 보조 LLM 을 활용한 최적화를 통해 다양한 대형 언어 모델을 효과적으로 우회하는 범용 재일브레이크 공격 프레임워크를 제안하고, 이에 대한 방어 전략을 모색합니다.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

이 논문은 RL 에만 국한된 것으로 여겨졌던 자기 개선 능력을 감독 학습 (SL) 으로도 가능하게 하는 'Negative-aware Fine-Tuning (NFT)'을 제안하여, 부정적 피드백을 활용한 자기 반성 학습을 통해 RL 기반 수학 추론 알고리즘과 경쟁하거나 이를 능가하는 성능을 입증하고 SL 과 RL 간의 이론적 간극을 해소했습니다.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

이 논문은 교과서 및 지식 조각과 같은 외부 자료를 참조하여 실행 가능한 도구를 자동으로 생성하고 계층적으로 구성하는 'RefTool' 프레임워크를 제안함으로써, 대형 언어 모델이 지식 의존적 추론 과제의 한계를 극복하고 정확도와 일반화 성능을 크게 향상시킨다는 것을 보여줍니다.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

이 논문은 가상 머신 기반 OS 환경과 Docker 기반 웹 플랫폼을 통합한 하이브리드 샌드박스 'RedTeamCUA'와 이를 활용한 벤치마크 'RTC-Bench'를 제안하여, 현재 최첨단 컴퓨터 사용 에이전트 (CUA) 들이 하이브리드 웹-OS 환경에서 간접 프롬프트 주입 공격에 심각한 취약점을 보임을 실증적으로 규명했습니다.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

이 논문은 17 개 도시의 위성 및 거리 뷰 이미지를 활용하여 6 개 주요 분야에 걸친 11 가지 예측 과제를 수행하는 대규모 비전 - 언어 모델 (LVLM) 의 도시 사회경제적 감지 능력을 평가하기 위한 포괄적인 벤치마크 'CityLens'를 제안하고, 현재 모델들의 잠재력과 한계를 규명합니다.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

이 논문은 인지심리학에 기반하여 동적 추론, 복잡한 공간 논리, 공간 상호작용, 시점 전환 등 50 개의 세부 범주로 구성된 포괄적인 벤치마크 'OmniSpatial'을 제안하고, 현재 시각 - 언어 모델들의 공간 추론 한계를 규명하며 이를 개선하기 위한 두 가지 전략을 제시합니다.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL