PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

이 논문은 생성 단계의 연산량을 늘려 각 토큰 예측 전에 잠재적 사고 (latent thought) 를 생성하는 'PonderLM-2'를 제안함으로써, 추론 비용은 동일하게 유지하면서 모델 크기를 두 배로 늘린 기존 모델보다 더 뛰어난 성능을 달성하는 새로운 사전 학습 방법을 소개합니다.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

이 논문은 다양한 LLM 과 벤치마크의 성능 상관관계를 넘어, 실제 데이터의 토큰 퍼플렉시티를 기반으로 벤치마크 간의 중첩과 용량 요구 사항을 정밀하게 분석하는 '벤치마크 시그니처'를 제안하여 벤치마크 유효성과 LLM 능력의 지리적 구조에 대한 새로운 통찰을 제공합니다.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

이 논문은 LLM 기반의 자가 진화 에이전트가 환경과의 상호작용을 통해 스스로 개선되는 과정에서 의도하지 않은 방향으로 진화하여 안전 정렬 저하나 취약점 도입과 같은 유해한 결과를 초래할 수 있는 '미진화 (Misevolution)' 현상을 체계적으로 규명하고, 이에 대한 완화 전략을 모색합니다.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

이 논문은 대규모 LLM 기반 에이전트 워크플로우를 활용해 약 1 만 편의 과학 논문에서 열전 및 구조적 특성을 자동 추출하여 2 만 7 천 8 백여 개의 레코드로 구성된 가장 큰 규모의 데이터셋을 구축하고, 이를 통해 재료 발견을 가속화할 수 있는 확장 가능한 파이프라인과 공개 도구를 제시합니다.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

본 연구는 대규모 언어 모델 (LLM) 과 지식 그래프 기술을 활용하여 세네갈의 법적 텍스트 (특히 토지 및 공공 영역 코드) 에서 수천 개의 조항을 추출하고 구조화함으로써 사법 정보 접근성을 향상시키고 시민과 법률 전문가가 권리와 의무를 더 효과적으로 이해할 수 있는 프레임워크를 제시합니다.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

이 논문은 퀘벡 프랑스어와 프랑스 본토의 관용구를 포함한 새로운 벤치마크 데이터셋을 구축하여 대규모 언어 모델 (LLM) 의 방언 이해 능력을 평가한 결과, 표준어 proficiency 가 지역 방언 이해를 보장하지 않으며 상당수 모델이 퀘벡 관용어에서 성능이 크게 저하되는 '방언 격차'를 확인했습니다.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

이 논문은 비전, 오디오, 언어 모듈을 각각 최적의 가속기에 매핑하는 하드웨어-소프트웨어 공동 설계 프레임워크 'NANOMIND'를 제안하여, 배터리 구동 소형 장치에서 대규모 멀티모달 모델의 온디바이스 추론 시 에너지 효율과 처리량을 획기적으로 향상시켰음을 보여줍니다.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

이 논문은 다단계 추론 과정에서 암묵적 주체가 쿼리 뉴런으로 작동하여 값을 누적하는 메커니즘을 규명하고, 이를 기반으로 한 뉴런 수준의 귀속 기반 지식 편집 프레임워크인 ACE 를 제안하여 기존 방법론보다 다단계 사실적 회상 성능을 획기적으로 개선했다고 요약할 수 있습니다.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

이 논문은 LLM 의 환각과 정적 지식 의존성으로 인한 장기 시뮬레이션 한계를 해결하기 위해 외부 튜토리얼에서 사실적 지식을 검색하여 통합한 '검색 증강 세계 모델 (R-WoM)'을 제안하고, 이를 통해 OSWorld 와 Webarena 환경에서 장기 계획 수행 능력을 크게 향상시켰음을 보여줍니다.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

이 논문은 과학적 문제의 불확정성 하에서 LLM 이 단일 정답이 아닌 설명 집합을 생성하는 능력을 평가하기 위해 유효성, 고유성, 회복력을 측정하는 'HypoSpace' 진단 도구를 제안하고, 기존 정확도 중심 평가로는 포착되지 않는 모델의 모드 붕괴 현상을 드러낸다는 점을 설명합니다.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

이 논문은 방글라데시 농민들을 위해 OCR 기반 문서 처리, 벡터 데이터베이스, 그리고 Gemma 3-4B 모델을 활용한 RAG 프레임워크를 통합하여 음성 기반의 실시간 농업 상담 서비스를 제공하는 'KrishokBondhu' 시스템을 제안하고, 기존 벤치마크 대비 높은 정확도와 맥락 풍부함을 입증했습니다.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

이 논문은 MinishLab 의 Potion-base-8M 증류 모델을 기반으로 Rust 로 구현된 SwiftEmbed 를 소개하며, 정적 토큰 조회와 제로-카피 직렬화를 통해 1.12ms 의 초저지연성과 50,000 RPS 의 처리량을 달성하면서도 MTEB 평균 60.6 점의 성능을 유지하는 실시간 텍스트 임베딩 시스템을 제안합니다.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

이 논문은 인간 멘토의 논문을 기반으로 가설 수립, 실험, 논문 작성까지 수행하는 자율 AI 시스템 'Jr. AI Scientist'를 개발하고, 기존 자동화 시스템보다 높은 평가 점수를 얻은 성과를 입증하는 동시에 현재 시스템의 한계와 잠재적 위험을 종합적으로 분석하여 AI 과학 연구의 신뢰성과 지속 가능성을 위한 통찰을 제공합니다.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG