cs.AI 篇论文 | Gist.Science

Physical Simulator In-the-Loop Video Generation

该论文提出了物理模拟器内循环视频生成（PSIVG）框架，通过将物理模拟器与视频扩散过程相结合，利用模拟的 4D 场景轨迹引导生成过程，并辅以测试时纹理一致性优化技术，从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

A Reference Architecture of Reinforcement Learning Frameworks

该论文针对强化学习框架缺乏统一参考架构的问题，基于对 18 个主流框架的扎根理论分析，提出了一套包含核心组件及其关系的参考架构，并以此重构典型模式、识别技术趋势以指导框架改进。

Xiaoran Liu, Istvan David2026-03-09🤖 cs.AI

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本文提出了 CLoPA 策略，通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调，无需引入新参数或改变推理流程，即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

Abductive Reasoning with Syllogistic Forms in Large Language Models

本文通过将演绎数据集转化为适合溯因推理的形式，评估了大语言模型在溯因推理中的准确性与偏差，旨在揭示其超越形式演绎的上下文推理能力，从而促进机器与人类认知在复杂推理任务中的融合。

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

该论文提出了一种基于弱时间对齐数据的 Prosodic Boundary-Aware 后训练策略，使 LLM 驱动的 TTS 模型能够在流式文本输入下实现基于内容边界的早期停止与滑动窗口推理，从而有效解决了流式合成中韵律不自然和长文本崩溃的问题，显著降低了长文本合成的词错误率并提升了说话人与情感相似度。

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong Chng2026-03-09🤖 cs.AI

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

该论文通过探针实验证明，冻结的视觉 - 语言模型底层特征中蕴含的连续几何信息远超其文本输出能力，且这种“表示 - 表达”差距源于训练路径而非表征缺失，不同架构的编码器虽表征相似性低却实现了功能收敛，表明无需微调即可利用冻结骨干网络作为多任务几何传感器。

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

PONTE 是一种人机协同框架，通过闭环验证与自适应机制，结合偏好建模、基于结构化 XAI 产物的生成以及多重验证模块，为不同用户生成既个性化又可信的自然语言解释，有效解决了现有可解释人工智能方法中缺乏个性化及大模型易产生幻觉的问题。

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

本文提出了专为从头预训练设计的 NOBLE 架构，通过在 Transformer 线性层中引入带有可学习非线性（如 CosNet）的低秩分支，在仅增加少量参数和时间开销的情况下显著提升了 LLM、BERT 及 ViT 等模型的训练效率。

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer 是一种无需重新训练的大语言模型控制框架，它通过推理时近似小样本上下文学习的梯度更新动态，仅用极少量示例即可高效实现高达 95% 的定向控制效果，从而解决了现有激活导向方法在样本效率与信号提取能力之间的权衡难题。

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

该研究提出了一种基于超过 4.5 万张超声图像训练的人工智能系统，其诊断胎儿口面裂的准确率媲美资深放射科医生，不仅能显著提升初级医生的诊断敏感性，还能加速罕见病临床专家的培养，为医疗资源匮乏地区提供了兼顾精准诊断与专业教育的可扩展解决方案。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

本文提出了 RAMoEA-QA，一种通过两阶段条件专业化机制（即音频混合专家路由和语言混合适配器选择）来应对呼吸音频数据异质性与查询意图多样性的分层生成模型，该模型在提升诊断准确率的同时展现了卓越的跨域泛化能力。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo2026-03-09🤖 cs.AI

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

本文介绍了 LiveSense 平台，该平台利用商用 Wi-Fi 网卡将笔记本电脑转化为厘米级实时距离 - 多普勒传感器，在保持通信能力的同时实现了高频 CSI 提取、自干扰消除及微动检测等功能。

Jessica Sanson, Rahul C. Shah, Maximilian Pinaroc, Cagri Tanriover, Valerio Frascolla2026-03-09🤖 cs.AI

Boosting deep Reinforcement Learning using pretraining with Logical Options

该论文提出了一种名为 H²RL 的混合分层强化学习框架，通过引入基于逻辑选项的预训练策略，将符号结构注入神经智能体以引导其进行目标导向的长期决策，从而有效解决了深度强化学习中常见的奖励过拟合问题，并在长程任务中超越了现有基线模型。

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

本文提出了 SUREON，这是一个从手术学术视频中大规模提取专家推理信号构建的视频问答数据集及基准，并基于此训练了具备显式推理能力的手术视觉语言模型，使其在手术推理和感知任务上显著超越了现有的通用大模型。

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

Fly360: Omnidirectional Obstacle Avoidance within Drone View

本文针对无人机在运动方向与机头朝向不一致时缺乏全向感知能力的局限，提出了名为 Fly360 的两阶段感知决策框架，利用全景 RGB 观测生成深度图并配合固定随机偏航训练策略，实现了稳定且优于传统前视基线的 omnidirectional（全向）避障能力。

Xiangkai Zhang, Dizhe Zhang, WenZhuo Cao, Zhaoliang Wan, Yingjie Niu, Lu Qi, Xu Yang, Zhiyong Liu2026-03-09🤖 cs.AI

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

BEVLM 提出了一种将鸟瞰图（BEV）表示与大型语言模型（LLM）相结合的新框架，通过从 LLM 蒸馏语义知识并统一多视角输入，显著提升了自动驾驶在复杂场景下的空间推理能力、跨视图理解精度及端到端闭环驾驶的安全性。

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

该论文提出了一种基于视频预测神经网络的生成模型 EIGen 来创造视觉运动错觉，并通过人类实验证实了这些错觉的有效性，从而支持了“错觉运动源于大脑对预测的感知而非原始视觉输入”的假设，同时倡导利用人工智能模仿生物系统的“动机性失败”来推动相关研究。

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

本文提出了 EHRSQL，这是一个基于 222 名医院工作人员真实需求构建的、涵盖复杂查询、时间表达及不可回答问题识别的电子病历（EHR）文本转 SQL 实用基准数据集，旨在推动该技术在医疗领域的实际部署。

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications

本文综述了利用深度学习近似解决机制设计中多目标冲突问题的技术细节与关键成果，并通过车联网能效管理、移动网络资源分配及农业投入品采购拍卖三个案例展示了该方法的有效性。

V. Udaya Sankar, Vishisht Srihari Rao, Mayank Ratan Bhardwaj + 1 more2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

本文提出了名为 FEP-Nav 的生物启发框架，通过结合自上而下的解码器与自适应归一化机制，在无需梯度更新的情况下实时最小化变分自由能，从而显著提升了机器人在噪声和感官突变环境下的视觉导航鲁棒性。

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs