A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

이 논문은 기계 학습의 이진 분류 평가가 임계값과 기저율 전반에 걸친 예측 품질을 우선시하는 결과주의적 관점 (적절한 스코어링 규칙 등) 으로 전환해야 함을 주장하며, 현재 관행과의 간극을 해소하기 위한 이론적 프레임워크, 새로운 평가 지표, 그리고 실용적 Python 도구인 `briertools`를 제시합니다.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

이 논문은 수학 문제의 유효성을 검증하기 위해 형식 검증, 조건 분해, 모순 탐지, 완전성 확인의 5 단계 파이프라인을 제안하고, 이를 통해 기존 벤치마크에서 최첨단 성능을 달성하여 신뢰할 수 있는 수학 데이터셋 구축을 가능하게 하는 'MathQ-Verify'를 소개합니다.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

이 논문은 기존 방법론보다 7 배 이상 빠르고 VRAM 사용량을 4 분의 1 로 줄여 24GB 소비자용 GPU 에서 7B 크기의 언어 모델을 편집할 수 있을 뿐만 아니라, 200 만 건 이상의 편집을 지원하면서도 정확도를 유지하는 'UltraEdit'라는 새로운 효율적이고 확장 가능한 평생 학습 기반 모델 편집 프레임워크를 제안합니다.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

이 논문은 대형 언어 모델 및 멀티모달 모델 등 기초 모델과 embodied AI 를 결합하여 모바일 서비스 로봇의 유연한 이해와 적응적 행동 구현을 도모하는 기술적 진전, 핵심 과제, 실제 응용 사례, 그리고 윤리적·사회적 함의와 향후 연구 방향을 체계적으로 고찰한 최초의 리뷰입니다.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

이 논문은 협력적 다중 에이전트 강화학습의 신용 할당 문제를 해결하기 위해 협력 게임 이론의 코어 (core) 개념을 도입하여 연합별 기여도를 평가하고 할당하는 CORA 알고리즘을 제안하며, 이를 통해 에이전트 간 조율된 최적 행동을 유도하고 기존 방법들보다 우수한 성능을 입증합니다.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

이 논문은 실제 세계의 다변량 시계열 데이터에서 발생하는 채널 간 의존성, 비동기적 샘플링, 결측치 문제를 동시에 해결하기 위해 제안된 'ChannelTokenFormer'라는 트랜스포머 기반 프레임워크를 소개하고, 이를 통해 다양한 실제 환경에서 뛰어난 예측 성능과 견고성을 입증했습니다.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

이 논문은 LLM 과 MLLM 의 결정학 지식 통합 능력을 평가하기 위해 217 개의 전문가 큐레이션 XRD 질문과 다양한 조건을 포함한 종합 벤치마크 프레임워크 'OPENXRD'를 제안하고, 중규모 모델이 컨텍스트 자료로부터 가장 큰 향상을 보이며 콘텐츠의 질이 양보다 성능 향상에 더 중요함을 입증했습니다.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

이 논문은 다양한 신체 구조의 데이터를 광학 흐름을 통해 통합하여 세계 모델을 사전 학습한 후, 이를 타겟 로봇의 소량 데이터로 미세 조정하고 가치 함수를 활용해 행동 복제 정책을 최적화함으로써 저데이터 환경에서 로봇 시각-운동 정책의 성능을 획기적으로 향상시키는 '잠재 정책 조종 (LPS)' 방법을 제안합니다.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

이 논문은 2005 년부터 2025 년까지의 미국 대중의 중국에 대한 태도 변화를 시뮬레이션하기 위해 뉴스 데이터와 소셜 미디어 프로필을 기반으로 한 LLM 에이전트 프레임워크를 개발하고, 사실 도출, 반대 입장 에이전트 도입, 반사실적 노출이라는 세 가지 편향 완화 기법을 통해 주관적 뉴스 프레임보다는 비판적 맥락화 에이전트가 더 효과적인 편향 교정 및 인간과 유사한 의견 형성 메커니즘을 제공함을 입증했습니다.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

이 논문은 소스 데이터 없이 중립 표정만 있는 타겟 데이터로 얼굴 표정 인식 모델을 개인화하기 위해, 잠재 공간에서 작동하는 경량화된 '개인화 특징 번역 (SFDA-PFT)' 방법을 제안하고 이를 통해 기존 방법보다 우수한 성능을 입증합니다.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI