cs.AI 篇论文 | Gist.Science

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法，通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势，从而解决传统全局优势共享导致的优化不足问题，在多个基准测试中显著提升了多智能体协作性能。

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

该论文提出了名为 ChannelTokenFormer 的 Transformer 框架，旨在通过统一处理通道依赖、异步采样和缺失值这三大现实挑战，显著提升多变量时间序列预测在复杂真实场景下的鲁棒性与准确性。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

该论文提出了一种名为 ConLID 的有监督对比学习方法，旨在通过学习域不变表示来解决低资源语言在单一领域数据（如《圣经》）上表现不佳的问题，从而在保持高资源语言性能的同时，显著提升了低资源语言在跨域数据上的语言识别准确率。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

本文介绍了 OPENXRD，这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架，通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试，揭示了模型规模、内容质量对知识整合效果的关键影响。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

该论文提出数学问题解决是一个信念更新循环，区分了优化既有语言搜索的“隐性概念”与引入新表达方式的“显性概念”，并论证后者是数学发现的核心特征，而当前 AI 系统仅具备前者，缺乏创造显性概念的能力。

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

本文提出了名为 QSpark 的框架，通过利用富含标注的合成数据集对 Qwen2.5-Coder-32B 模型进行 GRPO 和 ORPO 强化学习微调，显著提升了其在 Qiskit 代码生成任务（特别是 Qiskit HumanEval 基准）上的可靠性与性能，尽管在高级任务上仍存在改进空间。

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

该论文提出了一种名为“潜在策略引导”（LPS）的方法，通过利用光流作为跨具身无关的动作表示来预训练世界模型，并结合目标具身的小规模演示数据进行微调与价值函数学习，从而在低数据场景下显著提升了机器人视觉运动策略的性能。

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

该论文提出了 MMGraphRAG 框架，通过引入基于谱聚类的 SpecLink 方法将视觉场景图与文本知识图谱深度融合，并发布了 CMEL 数据集，有效解决了现有 GraphRAG 难以构建细粒度多模态知识图谱的问题，从而在复杂多模态场景下显著提升了检索增强生成的性能与可解释性。

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

该研究提出了一种结合新闻数据与社交媒体画像的 LLM 智能体框架，通过事实提取、魔鬼代言人模拟及反事实暴露三种去偏机制，探究了媒体对中美态度的影响，发现“魔鬼代言人”机制在模拟人类认知和缓解偏见方面最为有效，同时揭示了不同大模型因地理起源而存在的固有偏见差异。

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法，通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据，从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

本文介绍了名为"AI Blob!"的实验系统，该系统受意大利电视节目《Blob》启发，利用大语言模型、自动语音识别和检索增强生成技术，对意大利电视档案进行语义编目与动态重组，从而自动生成具有讽刺性并置和主题连贯性的叙事蒙太奇，为媒体史研究与 AI 驱动的档案探索提供了新的方法论框架。

Roberto Balestri2026-03-11💬 cs.CL

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准，旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测，揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性，并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法，旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。

Xinxing Wu2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架，通过结合思维链监督微调、偏好优化及基于难度的动态采样策略，成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战，显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

本文提出了 CMASE 框架，该框架通过将生成式智能体建模与虚拟民族志方法相结合，使研究者能够作为嵌入参与者实时干预虚拟社会环境，从而在保持实证准确性的同时，实现对复杂社会现象的机制性解释与因果预测。

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

本文提出了 VistaWise，一种通过构建跨模态知识图谱并微调专用目标检测模型，仅需数百样本即可在 Minecraft 中实现低成本、高性能的具身智能体框架。

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang2026-03-11🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

该论文提出了 SEER 框架，通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链（CoT），在显著降低计算延迟和内存开销的同时，有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

该论文展示了利用 AlphaEvolve（一种大语言模型代码变异代理）在复杂性理论中取得的新进展，包括改进随机正则图上的认证算法界限、发现新的归约装置以提升 MAX-CUT 和 TSP 等组合优化问题的不可近似性下界，并通过 AI 辅助优化验证过程来克服构造验证的计算成本。

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

本文提出了 VoiceBridge，一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型，能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu2026-03-11🤖 cs.AI

← 上一页下一页 →