OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

이 논문은 LLM 과 MLLM 의 결정학 지식 통합 능력을 평가하기 위해 217 개의 전문가 큐레이션 XRD 질문과 다양한 조건을 포함한 종합 벤치마크 프레임워크 'OPENXRD'를 제안하고, 중규모 모델이 컨텍스트 자료로부터 가장 큰 향상을 보이며 콘텐츠의 질이 양보다 성능 향상에 더 중요함을 입증했습니다.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

이 논문은 다양한 신체 구조의 데이터를 광학 흐름을 통해 통합하여 세계 모델을 사전 학습한 후, 이를 타겟 로봇의 소량 데이터로 미세 조정하고 가치 함수를 활용해 행동 복제 정책을 최적화함으로써 저데이터 환경에서 로봇 시각-운동 정책의 성능을 획기적으로 향상시키는 '잠재 정책 조종 (LPS)' 방법을 제안합니다.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

이 논문은 2005 년부터 2025 년까지의 미국 대중의 중국에 대한 태도 변화를 시뮬레이션하기 위해 뉴스 데이터와 소셜 미디어 프로필을 기반으로 한 LLM 에이전트 프레임워크를 개발하고, 사실 도출, 반대 입장 에이전트 도입, 반사실적 노출이라는 세 가지 편향 완화 기법을 통해 주관적 뉴스 프레임보다는 비판적 맥락화 에이전트가 더 효과적인 편향 교정 및 인간과 유사한 의견 형성 메커니즘을 제공함을 입증했습니다.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

이 논문은 소스 데이터 없이 중립 표정만 있는 타겟 데이터로 얼굴 표정 인식 모델을 개인화하기 위해, 잠재 공간에서 작동하는 경량화된 '개인화 특징 번역 (SFDA-PFT)' 방법을 제안하고 이를 통해 기존 방법보다 우수한 성능을 입증합니다.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

본 논문은 일상 활동에 국한된 기존 벤치마크의 한계를 극복하고 수술, 산업, 극한 스포츠, 동물 시점 등 다양한 도메인 간 일반화 능력을 평가하기 위해 고안된 멀티모달 대규모 언어 모델용 새로운 벤치마크 'EgoCross'를 제안하고, 이를 통해 현재 모델들의 도메인 적응 한계를 분석하고 개선 방안을 모색합니다.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

이 논문은 BERT 기반 모델의 추론 한계를 극복하고 대형 언어 모델 (LLM) 을 직접 전자상거래 관련성 검색에 적용하기 위해 CoT 기반 SFT, DPO, GRPO 등을 결합한 'TaoSR1' 프레임워크를 제안하며, 오프라인 및 온라인 평가에서 기존 모델보다 뛰어난 성능을 입증했습니다.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

이 논문은 생성형 에이전트와 가상 민족지 방법을 통합하여 연구자가 가상 사회 환경에 직접 참여하고 개입할 수 있도록 하는 CMASE 프레임워크를 제안하며, 이를 통해 복잡한 사회 현상의 통계적 패턴과 인과적 메커니즘을 동시에 설명하고 예측하는 새로운 사회과학 연구 방법론을 제시합니다.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

이 논문은 도메인 특화 데이터의 대량 학습 없이도 수백 개의 샘플로 시각 정보와 텍스트 의존성을 통합한 크로스모달 지식 그래프와 전용 객체 탐지 모델을 통해 마인크래프트 환경에서 최첨단 성능을 보이는 비용 효율적인 에이전트 'VistaWise'를 제안합니다.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

이 논문은 긴 사고 과정 (CoT) 이 항상 성능 향상을 보장하지 않는다는 점을 실증적으로 규명하고, 생성된 출력에 기반하여 적응적으로 CoT 를 압축함으로써 지연 시간과 메모리 사용량을 줄이면서도 정확도를 유지하는 새로운 프레임워크인 SEER 를 제안합니다.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI