cs 篇论文 | Gist.Science

Multi-TAP: Multi-criteria Target Adaptive Persona Modeling for Cross-Domain Recommendation

本文提出了 Multi-TAP 框架，通过语义画像建模显式捕捉域内用户偏好的异质性，并实现基于目标域条件筛选的源域知识迁移，从而在跨域推荐任务中显著优于现有最先进方法。

Daehee Kang, Yeon-Chang Lee2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架，通过在不微调的情况下对音视频潜在空间进行加密绑定，有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞，从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

该研究针对“软件工程 2.0"背景下资源受限的小语言模型（SLM），通过构建多维评估框架，揭示了其在生成架构决策记录时的推理深度差异，发现 30 亿参数以上模型具备较强的零样本能力，而小参数模型虽经微调可提升语义多样性，但往往伴随幻觉风险，且少样本提示对特定中等规模模型具有显著的校准作用。

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

本文提出了一种结合监督微调与人类反馈强化学习的新方法，通过将身份无关的面部表情生成建模为动作学习过程，实现了在自然双向交互中生成符合人类偏好且情感社会适配的面部表情。

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Randomise Alone, Reach as a Team

本文研究了对手存在下、玩家间无共享随机源且彼此独立的并发图博弈，证明了阈值判定问题属于实数存在理论（ $\exists\mathbb{R}$ ）且为 NP 难，几乎必然可达性判定为 NP 完全，并提出了适用于此类分布随机化场景的 IRATL 逻辑及相应求解算法。

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. Thejaswini2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

该论文提出了一种基于 ADMM 的分布式模型预测控制框架（ACLM），通过利用负载耦合结构将全局优化问题分解为并行子问题，实现了多足机器人在复杂非结构化环境中对重型负载进行协作移动操作的高效、可扩展且鲁棒的实时规划与控制。

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

Towards Scalable Probabilistic Human Motion Prediction with Gaussian Processes for Safe Human-Robot Collaboration

本文提出了一种基于结构化多任务变分高斯过程的框架，利用 6D 旋转表示和联合维度因子化技术，在显著降低参数量的同时实现了可扩展的全身人体运动预测，不仅具备与深度学习模型相当的精度，更提供了可靠且可解释的不确定性估计，从而有效保障了人机协作的安全性。

Jinger Chong, Xiaotong Zhang, Kamal Youcef-Toumi2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

该论文提出了一种名为 NuNext 的新方法，通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务，并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架，在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

该研究通过对比直接生成与基于人类作者定义的中间表示（IR）的流水线方法，实证评估了大型语言模型在结构约束下将目标可玩模式（GPCs）转化为可编译 Unity 游戏代码的能力，并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

本文提出了名为 AutoUE 的多智能体系统，通过结合检索增强生成、游戏设计模式约束及自动化测试流水线，实现了在虚幻引擎中从零开始端到端生成包含场景、代码及交互功能的 3D 游戏。

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架（PSAD），通过引入用户画像网络增强用户 - 物品交互，有效解决了生成式重排序中生成质量与推理延迟的平衡难题，并在多个数据集上显著优于现有最先进方法。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

该论文通过构建 ConservationBench 基准测试发现，当前视觉语言模型在面对物理变换时无法真正理解守恒定律，其表现接近随机猜测且受文本先验误导，表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

该论文提出了一种名为 FEMA 的失败经验记忆机制，通过显式存储并检索短期失败经历来引导策略避免重复错误，从而在强化学习中显著提升了样本效率并促进了长时程探索。

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

该论文提出了一种名为语义分区对比学习（S-PCL）的高效自监督预训练框架，通过随机划分图像块构建互补视图来隐式学习胸部 X 光片的解剖与病理特征，从而在无需手工增强、辅助解码器或动量编码器的情况下，实现了比现有方法更低的计算成本和更高的诊断精度。

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

该论文提出了 aCAPTCHA，一种基于人类认知与 AI 处理之间非对称难度差异的时间约束安全协议，旨在通过验证行动、推理和记忆能力来区分人类、脚本与智能体，从而解决自主 AI 代理在网络安全中的实体类型验证问题。

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

该论文提出了 TIQA 任务及配套的标注数据集，并设计了轻量级的 ANTIQA 方法，旨在通过更贴合人类感知的文本质量评分，有效解决现有生成式图像中文本渲染评估与 OCR 或通用视觉模型判断偏差较大的问题，从而显著提升生成流程中的文本质量筛选与重排序效果。

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

该论文提出了一种名为“图像间像素混洗（IPS）”的新方法，通过将多聚焦图像融合重构为像素级分类任务，利用单张清晰图像及其低通滤波版本生成无需真实多聚焦数据的合成训练集，并结合卷积神经网络与状态空间模型构建的跨图像融合网络，实现了在缺乏真实多聚焦训练数据的情况下仍能显著超越现有方法的高质量融合效果。

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

该论文提出了一种基于真实一级方程式遥测数据的学习型初始化策略，通过利用神经网络根据局部赛道几何特征预测专家级赛车线，显著提升了自动驾驶赛车轨迹优化求解器的收敛速度与运行效率，同时保持了最优单圈成绩。

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

本文介绍了一个包含音频和振动多模态信号的单速链式输送机工业故障数据集，旨在通过标准化评估协议和基线模型，支持复杂工况下的系统级故障检测与多模态融合研究。

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本文提出了 EyExIn 框架，通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制，有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题，显著提升了眼科视觉问答的精度与可信度。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs