OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

本文介绍了 OPENXRD,这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架,通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试,揭示了模型规模、内容质量对知识整合效果的关键影响。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

该研究提出了一种结合新闻数据与社交媒体画像的 LLM 智能体框架,通过事实提取、魔鬼代言人模拟及反事实暴露三种去偏机制,探究了媒体对中美态度的影响,发现“魔鬼代言人”机制在模拟人类认知和缓解偏见方面最为有效,同时揭示了不同大模型因地理起源而存在的固有偏见差异。

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架,通过结合思维链监督微调、偏好优化及基于难度的动态采样策略,成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战,显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI