cs 篇论文 | Gist.Science

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

该论文提出了一种名为 MultiGen 的新方法，通过引入独立于模型上下文窗口的可编辑外部记忆模块，将生成过程分解为记忆、观测和动态三个部分，从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

本文提出了名为 VB 的基准测试，旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力，通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳，而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

本文提出了 RADAR，这是一个基于 3D 医学图像与临床审阅流程的多模态基准，旨在通过评估影像一致性、临床严重程度及编辑类型，推动多模态模型在放射学报告修订与差异分析中的细粒度推理能力。

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

本文提出了 ECHO 框架，通过多智能体协作对多媒体事件超图进行迭代优化，并采用“先链接后绑定”策略以缓解跨模态错误传播，从而在多媒体事件提取任务中显著超越了现有最先进方法。

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

本文提出了一种利用手机拍摄视频或图像并结合运动恢复结构（SfM）技术与三维分割算法，对现场骨料堆进行三维重建与单颗粒提取的创新方法，旨在为道路建设中的骨料粒径与形状分析提供便捷、低成本的现场质量管控解决方案。

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者（Narrative Weaver）”的新框架，通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制，并发布了首个电商广告视频分镜数据集（EAVSD），从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

该研究探讨了 TerraMind 多模态地理空间基础模型在不进行高光谱预训练的情况下，通过波段选择等策略适应高光谱下游任务的能力，结果表明虽然其表现略逊于原生支持高光谱的模型，但为未来引入原生光谱标记化架构奠定了重要基准。

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

本文提出了一种专为移动机器人设计的鲁棒性单次羽毛球检测框架，通过构建包含 20,510 帧半自动标注数据的新数据集并优化 YOLOv8 网络，有效解决了动态视角下羽毛球检测的难题，为后续跟踪与轨迹估计等任务奠定了基础。

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

该论文提出了一种名为 HARP 的深度学习框架，通过仅在可移动的扩散体模上进行训练，成功消除了多站点体内扩散 MRI 数据间的扫描仪差异，从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号，通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程，从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

该论文通过实证研究揭示，在将大规模 Vision Transformer 教师模型蒸馏至容量受限的 CNN 学生模型时，会引发严重的维度坍塌现象，导致有效维度大幅降低并削弱模型的噪声鲁棒性，且这种由非对称余弦蒸馏引起的几何局限性无法通过输入增强来修复。

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

该论文针对农业领域缺乏通用视觉定位基准的难题，提出了首个包含负样本的农业数据集 gRef-CW，并设计了融合多标签分层相关性评分与插值回归的 Weed-VG 框架，以解决作物与杂草实例定位及目标缺失场景下的定位挑战。

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

该论文提出了科学图像质量评估（SIQA）框架，通过构建包含知识（科学有效性与完整性）和感知（认知清晰度与学科规范性）的双维评估体系及 SIQA 挑战基准，揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距，从而强调了多维评估对于科学图像质量判断的必要性。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

本文提出了第五图范式（5GNF），这是一种基于特征的元数据规范化框架，通过将重复元数据提取为可复用的特征节点来消除属性图中的冗余并提升语义一致性，且经北风数据集验证在保持性能的同时显著简化了模式结构。

Yahya Sa'd, Vojtech Merunka, Renzo Angles2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

本文提出了一种结合语法引导合成（SyGuS）与扩展了谓词和函数更新的时序流逻辑（TSL $_f$ ）的新方法，通过从执行轨迹中挖掘数据转换与时序规范，实现了比被动学习基线更鲁棒且样本效率更高的反应式程序合成。

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

本文介绍了一种基于枢轴设计的可变形"Kiri 勺”，它通过类似钳子的挤压机制实现食物抓取与防洒，既可作为手餐具供震颤或行动受限者使用，也可作为机器人辅助喂食附件，并在用户研究中展现出比现有方案更优的防洒效果与需求匹配度。

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略，通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化，显著提升了云规避和风暴追踪等场景下的观测性能（最高提升 41%）。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

该论文针对现有隐形水印检测依赖特定算法先验知识的局限，提出了无需解码信息的通用水印存在检测（UWPD）任务，并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型，实现了在未知嵌入算法下的优异零样本检测能力。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

本文提出了开放词汇视频时序句子定位（OV-TSGV）任务及首个专用基准，并设计了名为 HERO 的统一框架，通过分层语言嵌入和并行跨模态细化机制，显著提升了模型在未见词汇和多样化表达下的泛化能力。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

该论文提出了一种血管感知深度学习框架，通过融合基于动脉、静脉和毛细血管生成的血管弯曲度与灌注缺失图，显著提升了光学相干断层扫描血管成像（OCTA）对年龄相关性黄斑变性（AMD）的检测性能与可解释性。

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs