ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ConfCtrl 的新技术,它的核心目标是解决一个非常烧脑的问题:如何仅凭两张相隔很远的照片,就“脑补”出中间所有角度的视频,并且让摄像机按照我们指定的路线精准移动?

想象一下,你手里只有两张照片:一张是站在房子左边拍的,另一张是站在房子右边拍的。你想看房子正面的样子,或者想模拟摄像机从左边平滑飞到右边的过程。以前的方法要么“脑补”能力太差(看不清没拍到的地方),要么“听话”能力太差(摄像机想往左飞,结果飞歪了)。

ConfCtrl 就像是一位拥有“超级直觉”和“精准导航”的 AI 导演,它通过两个巧妙的招数解决了这个问题。我们可以用两个生动的比喻来理解它的工作原理:

1. 招数一:带着“信任地图”起跑(置信度感知的初始化)

以前的做法:
想象你要画一幅画,以前的 AI 是从一张完全空白的白纸(纯噪音)开始画的。它得先瞎猜,然后慢慢修正。如果它猜错了,后面就很难改回来。

ConfCtrl 的做法:
ConfCtrl 不拿白纸,而是拿了一张**“半成品的草图”**作为起点。

  • 草图是什么? 它是利用 AI 从两张照片里推算出来的 3D 点云(就像用无数个小点搭建的 3D 模型)。
  • 问题在哪? 这个 3D 模型有时候很准,有时候因为遮挡或光线问题会“画歪”(有噪音)。
  • ConfCtrl 的绝招: 它给这张草图配了一张**“信任地图”**(置信度图)。
    • 在“信任地图”上,AI 会标记:“这部分点很准,我们要重点参考”“那部分点可能是瞎猜的,我们要少听它的”
    • 比喻: 就像你让一个向导带你走,向导手里有一张地图。ConfCtrl 不是盲目跟着向导走,而是看着向导说:“前面这段路你看得很清楚,我听你的;后面那段路你好像有点晕,我就自己多拿主意,少听你的。”
    • 结果: 这样起步,AI 既有了 3D 结构的底子,又不会被错误的信息带偏。

2. 招数二:像“自动驾驶”一样的修正机制(预测 - 更新机制)

以前的做法:
以前的方法就像是一个死板的司机。你给它一个指令:“往左开”,它就拼命往左开,不管前面是不是有墙(几何结构不对),结果车就撞墙了(画面变形)。

ConfCtrl 的做法:
ConfCtrl 引入了一种类似**“自动驾驶系统”的机制,灵感来自著名的卡尔曼滤波**(数学上处理不确定性的经典方法)。它把过程分成了两步,像呼吸一样循环:

  • 第一步:预测(Predict)
    • AI 看着你的指令(摄像机想往哪飞),先一个大概的画面。
    • 比喻: 司机看着导航说:“我们要去左边,我猜前面是条直路。”
  • 第二步:更新(Update)
    • AI 再回头看一眼那张“半成品的 3D 草图”(虽然有点噪点,但大体结构是对的)。
    • 如果草图显示“前面有堵墙”,而刚才的预测是“直路”,AI 就会修正刚才的猜测。
    • 比喻: 司机看了一眼路边的路标(3D 草图),发现前面其实是死胡同。于是他说:“哦,刚才猜错了,我得调整一下方向,避开那堵墙。”
  • 核心优势: 这个机制让 AI 能够动态平衡“听指令”和“看现实”。如果 3D 数据不准,它就多信指令;如果指令太离谱,它就多信 3D 结构。

总结:ConfCtrl 到底牛在哪里?

如果把生成视频比作拍电影

  1. 以前的模型: 要么是个只会临摹的画师(回归法),画不出没见过的东西;要么是个喝醉的导演(扩散法),虽然能画出很美的画面,但摄像机乱飞,根本不听指挥。
  2. ConfCtrl: 它是一位经验丰富的老导演
    • 它手里有一张带备注的草图(置信度加权初始化),知道哪里靠谱,哪里不靠谱。
    • 它有一个智能的副导演(预测 - 更新机制),时刻提醒它:“导演,你刚才的走位太偏了,根据现场结构,得往回拉一点。”

最终效果:

  • 看得更真: 即使是大角度的视角变化,也能把被遮挡的地方“脑补”得合情合理,没有奇怪的扭曲。
  • 走得更准: 摄像机想怎么飞就怎么飞,完全按照指定的路线,不会跑偏。
  • 举一反三: 即使遇到没见过的场景(比如训练时没见过的物体),它也能靠强大的直觉(预训练的视频扩散模型)拍出高质量的视频。

简单来说,ConfCtrl 就是给 AI 装上了**“信任过滤器”“实时纠错系统”**,让它既能发挥天马行空的想象力,又能脚踏实地地遵守物理规则。