Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

本文提出了一种面向微创手术的置信度感知单目深度估计框架,通过利用集成立体匹配模型生成校准置信度目标、设计置信度感知损失函数以及引入推理阶段置信度预测头,有效解决了内窥镜图像噪声干扰问题,显著提升了深度估计精度并实现了预测可靠性的量化评估。

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本文提出了名为 InfinityStory 的新框架、数据集及模型,通过引入背景一致性生成流程、多主体过渡感知合成模块以及包含 1 万条序列的合成数据集,有效解决了长篇幅叙事视频中背景连贯性、多主体镜头切换及长时扩展性三大挑战,并在 VBench 评测中实现了背景与主体一致性的最优表现。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs