cs.AI 篇论文 | Gist.Science

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

该论文提出了一种名为 ConLID 的有监督对比学习方法，旨在通过学习域不变表示来解决低资源语言在单一领域数据（如《圣经》）上表现不佳的问题，从而在保持高资源语言性能的同时，显著提升了低资源语言在跨域数据上的语言识别准确率。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

本文介绍了 OPENXRD，这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架，通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试，揭示了模型规模、内容质量对知识整合效果的关键影响。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

On the mechanical creation of mathematical concepts

该论文提出数学问题解决是一个信念更新循环，区分了优化既有语言搜索的“隐性概念”与引入新表达方式的“显性概念”，并论证后者是数学发现的核心特征，而当前 AI 系统仅具备前者，缺乏创造显性概念的能力。

Asvin GWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

该论文提出了一种名为“潜在策略引导”（LPS）的方法，通过利用光流作为跨具身无关的动作表示来预训练世界模型，并结合目标具身的小规模演示数据进行微调与价值函数学习，从而在低数据场景下显著提升了机器人视觉运动策略的性能。

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

该论文提出了 MMGraphRAG 框架，通过引入基于谱聚类的 SpecLink 方法将视觉场景图与文本知识图谱深度融合，并发布了 CMEL 数据集，有效解决了现有 GraphRAG 难以构建细粒度多模态知识图谱的问题，从而在复杂多模态场景下显著提升了检索增强生成的性能与可解释性。

Xueyao Wan, Hang YuWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

该研究提出了一种结合新闻数据与社交媒体画像的 LLM 智能体框架，通过事实提取、魔鬼代言人模拟及反事实暴露三种去偏机制，探究了媒体对中美态度的影响，发现“魔鬼代言人”机制在模拟人类认知和缓解偏见方面最为有效，同时揭示了不同大模型因地理起源而存在的固有偏见差异。

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法，通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据，从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准，旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测，揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性，并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法，旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。

Xinxing WuWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架，通过结合思维链监督微调、偏好优化及基于难度的动态采样策略，成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战，显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

本文提出了 CMASE 框架，该框架通过将生成式智能体建模与虚拟民族志方法相结合，使研究者能够作为嵌入参与者实时干预虚拟社会环境，从而在保持实证准确性的同时，实现对复杂社会现象的机制性解释与因果预测。

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

本文提出了 VistaWise，一种通过构建跨模态知识图谱并微调专用目标检测模型，仅需数百样本即可在 Minecraft 中实现低成本、高性能的具身智能体框架。

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

该论文提出了 SEER 框架，通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链（CoT），在显著降低计算延迟和内存开销的同时，有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

本文提出了 VoiceBridge，一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型，能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer（LST），通过将离散语音令牌聚合为更高阶的潜语音补丁，解决了语音与文本模态间的序列长度不平衡问题，从而在提升计算效率的同时显著增强了跨模态对齐能力，并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统，该系统通过多轮智能体推理、多轮智能体学习（结合工具使用强化学习）以及多轮智能体进化（提出 - 判断 - 更新循环）三大核心组件，有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题，并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI