SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

이 논문은 추론 모델의 테스트 시간 적응 시 발생하는 수렴 문제를 해결하기 위해, 고엔트로피 분기 토큰만 선택적으로 업데이트하고 엔트로피 밴드 정규화를 적용하여 라벨 없이도 안정적이고 효과적인 성능 향상을 이루는 'SPINE' 프레임워크를 제안합니다.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

이 논문은 전역 평균 손실에 의존하는 기존 방식을 넘어, 슬라이딩 윈도우를 활용한 국소적 신호의 집합을 통해 파인튜닝된 대규모 언어 모델의 멤버십 추론 공격 정확도를 획기적으로 향상시킨 'WBC' 방법을 제안하고 그 우수성을 입증합니다.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

이 논문은 다양한 학년 수준에 맞는 교육용 콘텐츠를 생성하기 위해 가독성 지표를 클러스터링하여 대규모 언어 모델을 파인튜닝하는 프레임워크를 제안하고, 이를 통해 프롬프트 기반 방법 대비 학년 적합성을 35.64% 포인트 향상시키면서도 사실적 정확성을 유지함을 입증했습니다.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

이 논문은 USAS 프레임워크의 규칙 기반 시맨틱 태거를 다국어 신경망 모델과 실버 표준 데이터로 보완하여 성능을 향상시키고, 이를 검증하기 위한 대규모 평가와 오픈 소스 리소스를 제안합니다.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

이 논문은 강화학습 후 학습을 거친 대형 추론 모델에서 발생하는 탐색 붕괴 문제를 해결하기 위해 추가 학습 없이 중간 계층의 엔트로피를 활용하는 '잠재적 탐색 디코딩 (LED)' 전략을 제안하여 추론 성능을 효과적으로 향상시킨다는 내용을 담고 있습니다.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

이 논문은 대규모 언어 모델의 긴 문맥 처리 효율성을 높이기 위해, 관련성과 중복성을 동시에 고려한 '주변 정보 이득 (MIG)' 지표를 기반으로 coarse-to-fine 방식으로 문맥을 압축하는 COMI 프레임워크를 제안하고 다양한 작업에서 기존 기법보다 뛰어난 성능을 입증합니다.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

본 논문은 구글의 제미니 (Gemini) 기반 모델을 활용하여 이론 컴퓨터 과학 및 물리학 등 다양한 분야에서 새로운 증명과 반례를 발견한 사례 연구와 반복적 정제, 문제 분해, 신경-상징적 루프 등 효과적인 인간-AI 협력 기법을 제시함으로써, 인공지능이 단순 자동화 도구를 넘어 과학적 발견의 진정한 파트너로 역할을 할 수 있음을 보여줍니다.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

이 논문은 자연어 기반의 반복적 생성·검증·수정 과정을 통해 수학 연구 전 과정을 자율적으로 수행하는 에이전트 'Aletheia'를 소개하고, 이를 통해 무인 자동 생성 논문, 인간-AI 협업 증명, 그리고 오픈 문제 해결 등 AI 와 수학 연구의 새로운 지평을 열었음을 보여줍니다.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

이 논문은 기계학습의 'ground truth' 패러다임이 인간 간 불일치를 단순한 기술적 노이즈로 오인하는 실증주의적 오류에 기반하며, 데이터 주석 과정에서 발생하는 합의의 함정과 서구 중심적 편향을 비판하고 불일치를 문화적 다양성을 반영하는 중요한 신호로 재해석하여 다원적 주석 인프라를 구축할 것을 주장합니다.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

이 논문은 OpenReview 리뷰어 질문 데이터를 기반으로 'IntelliReward' 보상 모델을 학습시키고 이를 통해 강화학습을 적용한 'IntelliAsk' 모델을 개발하여, 기존 LLM 들보다 더 심층적이고 근거 기반이며 노력이 담긴 연구 질문을 생성할 수 있도록 했음을 제시합니다.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

이 논문은 뉴스 담론에서의 어휘적 다양성과 프레이밍 변이를 포착할 수 있도록 '동일성'과 '근접 동일성' 관계를 모두 포함하는 새로운 교차 문서 코어퍼런스 주석 체계를 제안하고, 이를 NewsWCL50 및 ECB+ 데이터셋에 적용하여 재주석한 결과를 제시합니다.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

이 논문은 모바일 에이전트의 혼합 능력 추론을 위해 네 가지 전문 가구를 가진 CoME 아키텍처와 점진적 훈련 전략, 그리고 정보 이득 기반의 Info-DPO 를 제안하여 기존 방법보다 우수한 성능을 입증했습니다.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

이 논문은 문법 제약 하의 LLM 디코딩에서 문법적 동치성이 허용된 다음 토큰 집합에는 영향을 주지 않지만, 컴파일된 상태 공간과 온라인 구조적 모호성 비용 (SAC) 에는 결정적인 차이를 만든다는 것을 증명하고, 이를 기반으로 효율적인 디코딩 엔진의 하한을 규명하며 Transformer 아키텍처와의 통합을 위한 이론적 틀을 제시합니다.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG