cs.AI 篇论文 | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架，利用冻结的大语言模型作为结构化语义教师，通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术，在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络，在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

本文提出了名为 PM-Nav 的先验地图引导具身导航框架，通过将环境地图转化为语义先验地图并结合分层思维链提示与多模型协同机制，有效解决了功能建筑中特征高度相似导致的导航难题，在仿真与真实场景中相比现有方法实现了显著的性能提升。

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

本文提出了 DexHiL，这是首个针对灵巧操作视觉 - 语言 - 动作（VLA）模型的人机协同后训练框架，通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口，显著提升了机器人在复杂任务中的成功率。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

本文提出了 QUSR 模型，通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块，有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

该研究通过将多智能体大语言模型委员会建模为随机动力系统，发现即使在零温度（ $T=0$ ）设定下，角色差异化与模型异质性仍会引发系统不稳定，从而论证了稳定性审计是构建多模型治理系统的核心设计需求。

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

该论文提出了一种基于概率必要性与充分性（PNS）的正则化方法，通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性，从而有效缓解特征冲突并防止灾难性遗忘。

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

该论文针对大语言模型在处理具有复杂层级和非规范布局的表格时难以进行长程推理的问题，提出了名为“深度表格研究（DTR）”的新框架，通过构建分层元图、引入期望感知选择策略以及利用孪生结构化记忆实现持续经验驱动，将表格推理形式化为闭环决策过程以显著提升多步推理能力。

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

本文提出了 DataFactory 框架，通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构，结合自动化数据转知识图谱映射与自然语言协商机制，有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题，并在多个基准测试中显著提升了准确率。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

本文提出了 TrustBench 框架，通过在智能体执行动作前进行实时信任验证，结合多维度基准测试与领域专用插件，有效将有害行为减少了 87% 并实现了低延迟的安全保障。

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准（Rubric）的强化学习框架，通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题，在提升生成多样性与泛化能力的同时，以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架，有效突破了电路网表示学习中真实标注数据稀缺的瓶颈，并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

本文提出了一种名为 GIAT 的新型框架，通过将地质先验知识（利用类别序列相关性滤波器生成关系矩阵）融入 Transformer 的注意力机制，显著提升了测井岩性识别的准确性、可靠性及可解释性。

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC 是一种无需大规模机器人遥操作数据、直接利用人类第一人称视频微调视觉语言模型以生成并执行自然全身动作的人形机器人控制框架，显著提升了人形机器人在场景交互中的自然性与通用性。

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

该论文介绍了基于大语言模型的代码变异代理 AlphaEvolve，通过单一元算法成功推导出五个经典拉姆齐数的改进下界，并复现了所有已知精确值及其他众多情况下的最佳下界。

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

本文提出了一种基于伊托型随机交通流模型的可微分生成框架，通过将物理约束从确定性偏微分方程扩展为分布形式，利用包含平流闭合模块的评分网络结合去噪得分匹配与福克 - 普朗克残差损失，实现了能够输出概率分布、置信区间及拥堵风险度量的物理信息交通状态估计。

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

本文提出了 DuplexCascade，一种无需语音活动检测（VAD）的级联流式语音对话系统，通过将传统长话轮转化为微话轮交互并引入专用控制令牌，在保留强大语言模型智能的同时实现了全双工语音对话。

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

cs.AI