cs.AI 篇论文 | Gist.Science

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

该论文提出了一种通过向大语言模型的中间层表示注入可训练嵌入来增强指令层级信号的新方法，从而显著降低了提示注入攻击的成功率，同时保持了模型的实用性。

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

该论文针对高阶共同邻居中存在的冗余和过平滑问题，提出了通过正交化和归一化技术消除重复并缓解过平滑的“正交共同邻居（OCN）”方法，在多个链接预测基准测试中显著优于现有最先进模型。

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

该研究提出了一种源自原子基础模型中间特征的新型局部蛋白质环境表示方法，该方法不仅能有效捕捉结构与化学特征，还能构建数据驱动的先验分布，并成功实现了具有物理学信息且达到最先进精度的核磁共振化学位移预测。

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

本文提出了 MMTU，一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试，旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力，并揭示了当前顶尖模型在此领域仍存在显著不足。

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

本文提出了 BemaGANv2，一种通过引入 AMP 生成模块和 MED 判别器，并系统评估多种判别器组合策略，以实现高保真、长时程音频生成（如文本转音乐/音频）的先进 GAN 语音合成器。

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

本文针对现实场景中数据与模型异构的挑战，提出了任务相关性感知的聚合策略及维度不变模块 Co-LoRA，并构建了涵盖 40 个任务的多模态基准，显著提升了个性化联邦学习在异构环境下的性能。

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

本文提出了名为 ContextMatters 的框架，通过结合大语言模型与经典规划器，利用场景上下文对不可达目标进行分层松弛以生成可行计划，从而在真实 3D 环境中显著提升了具身智能体的任务成功率。

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

该论文提出了一种名为 GLMask 的半自监督学习方法，通过最小化人工标注并专注于形状与纹理特征，成功将语义分割转化为实例分割，在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能，并在 COCO 数据集上实现了超过 12.6% 的显著提升。

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

本文针对直接偏好优化（DPO）中数据选择忽视模型演化状态的问题，提出了名为 SamS 的自适应批处理样本调度算法，该算法能根据模型学习反馈动态调整训练样本，从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

该论文提出了“动机增强强化微调”（MeRF）方法，通过将奖励函数规范作为上下文提示直接注入大语言模型，使其在强化学习过程中明确优化目标，从而显著提升模型在复杂推理任务上的性能。

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

本文提出了名为 SUBARU 的框架，通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换，并结合宽带重建方法，在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

该论文提出了一种名为 LD-RPS 的零样本统一图像恢复方法，通过利用预训练潜在扩散模型结合多模态理解先验与轻量级对齐模块，采用循环后验采样策略，有效解决了现有方法在泛化性和闭集约束方面的局限。

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

该论文通过理论推导与实验验证，揭示了在含噪数据下训练物理信息神经网络（PINN）时，若要使经验风险低于噪声方差，网络规模必须满足特定的下界约束，从而证明了单纯增加噪声样本数量无法降低误差。

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架，通过模态组合感知低秩适应（MCLA）模块解耦共享信息与模态特性，并利用动态参数微调（DPFT）模块基于表征空间可分性优化训练比例，从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型（MLLM）作为验证器时普遍存在的“同意偏差”问题，并提出了一种名为自我 grounded 验证（SGV）的两步生成方法，通过先独立生成行为先验再评估轨迹，显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

本文提出了一种名为 Mamba Snake 的新型深度蛇形框架，通过引入状态空间建模、Mamba 演化模块及双分类协同机制，有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题，并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

本文提出了 InsightX Agent，一种基于大型多模态模型（LMM）的智能体框架，通过协调稀疏变形多尺度检测器（SDMSD）与证据 grounding 反思（EGR）工具，实现了兼具高检测精度、可解释性及自我评估能力的可靠 X 射线无损检测分析。

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

本文提出了一种基于 Vision Transformer 的深度学习框架，利用主成分分析扩展少量标注数据并融合多源遥感影像，以在缺乏精确地面真值的情况下提升灾后受灾区域分割的平滑度与可靠性，从而增强台湾太空总署的紧急增值产品（EVAP）效能。

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

这篇论文作为首份全面综述，系统梳理了流匹配（Flow Matching）的理论基础及其在生物序列建模、分子生成与设计和蛋白质生成等生命科学领域的最新应用进展，并总结了相关数据集、工具及未来发展方向。

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

该论文针对现有大语言模型用户模拟器在多轮对话中难以保持目标导向行为的问题，提出了包含用户目标状态追踪（UGST）的三阶段开发框架及相应评估指标，显著提升了模拟器在 MultiWOZ 和τ-Bench 基准测试中的目标对齐能力。

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL