cs.AI 篇论文 | Gist.Science

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

本文提出了 HURRI-GAN 这一基于时间序列生成对抗网络（TimeGAN）的新型人工智能方法，旨在通过校正物理模型（如 ADCIRC）的系统性偏差，在减少计算网格分辨率和运行时间的同时，实现超越现有水位监测站范围的飓风风暴潮高精度预测。

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

本文提出了一种名为测地线梯度下降（GGD）的通用且无需学习率的优化算法，该算法通过在目标函数诱导的流形上利用 n 维球面近似局部邻域并沿测地线更新参数，有效解决了传统欧氏梯度下降偏离流形及黎曼梯度下降难以表征复杂流形的问题，并在多项实验中显著降低了测试误差。

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

该论文提出了 PaLMR 框架，通过构建感知对齐的数据层与过程对齐的优化层，解决了多模态大模型在强化学习中因过度关注最终答案而容忍推理过程幻觉的问题，从而显著提升了视觉推理的忠实度与可靠性。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

本文提出了一种名为 FCBNet 的参数高效卷积模型，通过采用冻结的 ConvNeXt 骨干网络、特征校正模块（FCB）及轻量级解码器，在多种光谱模态下实现了超过 85% 的 mIoU 高精度杂草分割，同时显著降低了训练时间和参数量。

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

本文提出了 GameVerse 基准，通过引入“反思并重试”的范式，证明视觉语言模型能够像人类一样从视频反馈（包括失败轨迹和专家教程）中学习并优化游戏策略。

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战，论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性，并展望了相关研发需求及该模式在其他学科领域的推广前景。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本文提出了 Graph-of-Mark (GoM)，一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术，实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

该论文提出了一种基于全局时间索引的序列并行 3D 位置编码方案（Causal-RoPE SP），通过系统级推理优化（如算子融合与预计算）解决了 DiT 视频生成模型在长视频合成中的显存爆炸与高延迟瓶颈，在八卡 A800 集群上实现了亚秒级首帧延迟和近实时推理速度。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

该论文指出思维链（CoT）在医学视觉问答任务中常因感知瓶颈而表现不如直接回答，并提出了无需训练的感知锚定与描述接地两种干预方法，有效提升了视觉大模型的准确性并逆转了性能劣势。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

本文提出了 SIL-GPO 框架，通过结合图注意力网络与自模仿学习策略的强化学习方法，有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题，显著降低了端到端延迟并提升了资源利用率。

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

本文提出了 CalibFusion，一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器，它通过端到端学习隐式外参微调，有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限，显著提升了融合检测的精度与鲁棒性。

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架，通过结合真实采购日志、标注欺诈数据及合成数据，利用时间感知和分组感知的嵌套交叉验证，显著提升了企业资源计划（ERP）系统中财务风险检测的准确性与可解释性，并纠正了以往研究中因数据泄露导致的性能高估问题。

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

该研究通过配对诊断实验发现，尽管语义噪声初始化在图像扩散模型中表现优异，但在文本到视频生成任务中并未展现出统计显著的优越性，其性能与高斯噪声基线相当。

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit 是一个端到端系统，能够结合长文本理解与参考图引导的风格迁移，从长篇科学文本中直接生成可编辑且风格可控的高质量科学插图（SVG 格式）。

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

该论文提出了一种结合可解释人工智能（XAI）与少样本学习（FSL）的混合分类模型，通过集成孪生网络和原型网络并利用 Grad-CAM 增强可解释性，在数据受限条件下实现了对玉米、水稻和小麦叶片病害阶段的高精度识别与透明化诊断。

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

该论文针对现有图表智能在深度研究能力上的不足，提出了通过并行相对策略优化（PRPO）解决训练冲突的框架，并构建了基于“误差唯一性”原则的 MCDR-Bench 评测基准，从而系统性地提升了大型视觉语言模型在图表深度分析中的协同训练与客观评估能力。

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

该论文提出了一种名为 MultiGen 的新方法，通过引入独立于模型上下文窗口的可编辑外部记忆模块，将生成过程分解为记忆、观测和动态三个部分，从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

本文提出了名为 VB 的基准测试，旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力，通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳，而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者（Narrative Weaver）”的新框架，通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制，并发布了首个电商广告视频分镜数据集（EAVSD），从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号，通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程，从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs