cs.AI 篇论文 | Gist.Science

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战，论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性，并展望了相关研发需求及该模式在其他学科领域的推广前景。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本文提出了 Graph-of-Mark (GoM)，一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术，实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

该论文提出了一种基于全局时间索引的序列并行 3D 位置编码方案（Causal-RoPE SP），通过系统级推理优化（如算子融合与预计算）解决了 DiT 视频生成模型在长视频合成中的显存爆炸与高延迟瓶颈，在八卡 A800 集群上实现了亚秒级首帧延迟和近实时推理速度。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

该论文指出思维链（CoT）在医学视觉问答任务中常因感知瓶颈而表现不如直接回答，并提出了无需训练的感知锚定与描述接地两种干预方法，有效提升了视觉大模型的准确性并逆转了性能劣势。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

本文提出了 SIL-GPO 框架，通过结合图注意力网络与自模仿学习策略的强化学习方法，有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题，显著降低了端到端延迟并提升了资源利用率。

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

本文提出了 CalibFusion，一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器，它通过端到端学习隐式外参微调，有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限，显著提升了融合检测的精度与鲁棒性。

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架，通过结合真实采购日志、标注欺诈数据及合成数据，利用时间感知和分组感知的嵌套交叉验证，显著提升了企业资源计划（ERP）系统中财务风险检测的准确性与可解释性，并纠正了以往研究中因数据泄露导致的性能高估问题。

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

该研究通过配对诊断实验发现，尽管语义噪声初始化在图像扩散模型中表现优异，但在文本到视频生成任务中并未展现出统计显著的优越性，其性能与高斯噪声基线相当。

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit 是一个端到端系统，能够结合长文本理解与参考图引导的风格迁移，从长篇科学文本中直接生成可编辑且风格可控的高质量科学插图（SVG 格式）。

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

该论文提出了一种结合可解释人工智能（XAI）与少样本学习（FSL）的混合分类模型，通过集成孪生网络和原型网络并利用 Grad-CAM 增强可解释性，在数据受限条件下实现了对玉米、水稻和小麦叶片病害阶段的高精度识别与透明化诊断。

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

该论文针对现有图表智能在深度研究能力上的不足，提出了通过并行相对策略优化（PRPO）解决训练冲突的框架，并构建了基于“误差唯一性”原则的 MCDR-Bench 评测基准，从而系统性地提升了大型视觉语言模型在图表深度分析中的协同训练与客观评估能力。

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

该论文提出了一种名为 MultiGen 的新方法，通过引入独立于模型上下文窗口的可编辑外部记忆模块，将生成过程分解为记忆、观测和动态三个部分，从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

本文提出了名为 VB 的基准测试，旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力，通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳，而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者（Narrative Weaver）”的新框架，通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制，并发布了首个电商广告视频分镜数据集（EAVSD），从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号，通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程，从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

本文提出了一种结合语法引导合成（SyGuS）与扩展了谓词和函数更新的时序流逻辑（TSL $_f$ ）的新方法，通过从执行轨迹中挖掘数据转换与时序规范，实现了比被动学习基线更鲁棒且样本效率更高的反应式程序合成。

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

该论文提出了 ATLAS 框架，通过引入可学习的上下文控制与基于评分标准的强化微调策略，使小语言模型能够在大型工具空间中高效执行长程任务，从而在有限的参数和上下文预算下达到接近前沿智能体的性能。

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略，通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化，显著提升了云规避和风暴追踪等场景下的观测性能（最高提升 41%）。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

本文提出了 ProtAlign 框架，通过对比学习将蛋白质序列与结构映射到统一的嵌入空间，从而实现了跨模态检索并提升了功能预测与稳定性评估等下游任务的性能。

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

该论文针对现有隐形水印检测依赖特定算法先验知识的局限，提出了无需解码信息的通用水印存在检测（UWPD）任务，并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型，实现了在未知嵌入算法下的优异零样本检测能力。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs