cs.AI 篇论文 | Gist.Science

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

该论文提出了一种结合大语言模型生成隐含前提、将自然语言转化为逻辑公式以及利用神经符号推理器验证蕴涵关系的流水线方法，旨在系统性地解决现实文本中省略三段论（enthymemes）的逻辑解码难题。

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

该论文提出了一种基于明确资产声明、系统性漏洞枚举及危害驱动合成数据生成的机器人物理安全框架，旨在通过形式化的危害本体论，将传统安全工程与数字孪生仿真、合成数据生成及机器学习模型训练紧密对齐。

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

该论文提出了一种基于因果图的新框架，通过将叙事建模为实体交互图并利用节点级因果估计提取最小因果子图，从而克服了传统黑盒模型的偏见与线性局限，实现了对对立叙事的更精准检测与分类。

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

该论文提出了一种名为“部分策略梯度”的新方法，通过优化未来奖励的子集来构建不同复杂度的策略类（如贪婪、K 步前瞻等），从而在 Persona 对齐对话任务中实现更可靠的梯度估计与更优的策略选择。

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本文提出了 Place-it-R1 框架，通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型，实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

该论文证明了预测编码图（PCGs）在数学上是前馈人工神经网络（多层感知机）的超集，从而将预测编码网络更紧密地融入现代机器学习框架，并强化了对神经网络拓扑结构的研究。

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本文提出了 VLM-RobustBench 基准，通过涵盖 49 种增强类型和 133 种扰动设置，评估了主流视觉语言模型在多种图像失真下的鲁棒性，揭示了当前模型虽语义能力强但空间脆弱，且低严重度几何扰动（如玻璃模糊）往往比高严重度光度扰动造成更显著的性能下降。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

该研究提出了一种基于输入扰动（如分形 Perlin 噪声）的集成图神经网络方法，用于在无需额外训练成本的情况下，显著提升区域海温概率预报的校准度与不确定性表征能力。

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

该研究通过 RAPTOR 框架的受控实验表明，在音频深度伪造检测中，多语言 HuBERT 预训练轨迹带来的跨域鲁棒性比模型规模更为关键，使得 1 亿参数模型能媲美大型商业系统，且其在扰动下的校准稳定性优于 WavLM 变体。

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

该论文提出了名为“反思流采样”（RF-Sampling）的训练无关推理增强框架，通过形式化推导证明其能隐式执行文本 - 图像对齐得分的梯度上升，从而有效解决了现有增强策略在 FLUX 等流匹配模型上表现不佳的问题，并显著提升了生成质量、提示词对齐度及测试时扩展能力。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

该论文提出了一种两阶段框架，通过先在标注的人造字母表上训练对比学习教师模型，再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入，从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON，这是一种基于临床指南的大语言模型评估框架，通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制，在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

本文提出了 Whisper-CD，一种无需训练的多负对比解码框架，通过对比干净音频与三种声学扰动生成的负向 logits，有效解决了 Whisper 模型在长语音识别中的幻觉、重复和遗漏问题，显著降低了词错率并提升了推理速度。

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

本文提出了名为 MAPO 的无 Critic 强化学习算法，通过利用判别模型提供的密集过程反馈并结合混合优势估计器，有效解决了主观多轮对话中长程信用分配与训练不稳定的难题，在多个情感智能基准测试中显著提升了模型性能与泛化能力。

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

FlashPrefill 是一种通过瞬时模式发现与动态阈值机制，在无需排序或累积开销的情况下高效识别多种稀疏注意力模式，从而在长序列（256K）上实现 27.78 倍加速、且在短序列（4K）上仍能保持 1.71 倍加速的超快速预填充框架。

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

本文提出了一种名为 CoE 的训练-free 多模态摘要框架，通过层级事件图（HEG）引导的“事件链”进行结构化推理，有效解决了现有方法对特定领域监督的依赖、跨模态对齐弱以及时序建模扁平化等问题，并在多个数据集上显著超越了现有最先进基线。

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

该论文提出了“对话式需求响应”（CDR）机制，利用代理人工智能构建双向多智能体架构，使聚合商与产消者通过自然语言进行透明、可解释的灵活互动，从而在保持自动化扩展性的同时增强用户自主权并确保持续参与。

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本文提出了 TaPD 框架，通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块，有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题，并在不同观测长度下显著提升了预测性能。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架，通过在大模型中引入混合专家（MoE）模块自适应地融合眼动、头部姿态及上下文等多模态线索，并结合类别平衡损失与数据增强策略，有效解决了机器人视线目标估计中的泛化与类别不平衡难题，在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

本文提出了一种名为 DeCoST 的两阶段学习框架，通过解耦离散路径选择与连续服务时间分配，在求解带时间窗和可变利润的定向问题（OPTWVP）时，显著提升了求解质量与推理效率。

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI