An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

本文提出了一种针对 JPEG XS 标准中帧内模式复制(IPC)位移向量搜索的高效流水线 FPGA 架构,通过优化存储组织实现了 38.3 Mpixels/s 的高吞吐量和低功耗,为其实用化部署及 ASIC 实现奠定了基础。

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是如何给一种叫 JPEG XS 的图片压缩技术“装上一套超级加速器”,让它能在硬件(比如 FPGA 芯片)上跑得更快、更省电。

为了让你轻松理解,我们可以把整个过程想象成在图书馆里找一本特定的书

1. 背景:为什么要找书?(JPEG XS 与 IPC)

想象一下,你正在看一个远程桌面(比如远程办公),屏幕上有很多文字、图表和重复的图案。

  • JPEG XS 就像是一个超级高效的图书管理员,他的任务是把屏幕上的画面压缩得越小越好,同时保证你看到画面时没有延迟(低延迟)。
  • IPC(帧内模式复制) 是这个管理员的一个独门绝技。他发现屏幕上很多图案是重复的(比如一个图标在左上角出现过,右下角又出现了一个一样的)。与其把右下角的图案重新描述一遍,不如直接说:“嘿,右下角那个,跟左上角那个长得一模一样,只是位置挪了一下。”
  • 这个“挪了一下”的距离,就是论文里说的位移向量(DV)

2. 核心难题:大海捞针(DV 搜索)

现在问题来了:管理员要决定“右下角的图案”到底对应“左上角的哪个位置”最完美。

  • 他不能随便猜,他必须遍历所有可能的位置,一个个试,看看哪个位置的图案跟目标最像,误差最小。
  • 这就好比你要在几百万本书里,把每一本都拿出来跟你要找的那本比对一下,看看哪本最像。
  • 痛点:这个过程计算量巨大,就像让一个人用算盘去算几亿次加减法,普通电脑或芯片做这个会累死(延迟高、耗电大),导致这个“独门绝技”没法在实际硬件上实时使用。

3. 论文的贡献:打造“流水线工厂”(FPGA 架构)

作者们设计了一套FPGA(一种可编程的专用芯片)方案,专门用来加速这个“找书”的过程。他们做了两件大事:

A. 流水线作业(Pipelined Architecture)

以前,管理员可能是一个人干完所有活:找书 -> 比对 -> 记录 -> 再找下一本。
现在,作者设计了一个四阶段的流水线工厂

  • 第一阶段:工人 A 负责把书从书架上搬下来(读取数据)。
  • 第二阶段:工人 B 负责把书翻开,检查内容(计算差异)。
  • 第三阶段:工人 C 负责计算这本书跟目标有多像(计算成本)。
  • 第四阶段:工人 D 负责记录哪本书最好(更新最佳结果)。
  • 效果:虽然一本书从开始到结束还是要走四步,但因为四个人同时在干活,每秒钟能处理的书(吞吐量)就大大增加了。这就好比以前是单车道,现在变成了四车道的高速公路。

B. 重新整理书架(优化的内存组织)

这是这篇论文最巧妙的地方。

  • 旧方法(Method 0):书架是按“房间”(Precinct)排列的。如果你要找不同房间里的书,你得跑好几个地方,还要记很多复杂的坐标。这就像去图书馆,每本书都散落在不同的楼层和书架,找起来非常乱,效率低。
  • 新方法(Method 1):作者把书架重新整理了一下!他们不再按“房间”放书,而是按**“书的类型”(IPC Group)**来放。
    • 把所有长得像的“图案组”都放在同一个抽屉里,并且按顺序排好。
    • 这就好比,你想找所有“红色封面”的书,以前要跑遍全图书馆,现在直接去“红色书专区”,一拉抽屉全齐了。
    • 为了配合这个新书架,他们还加了一个**“小抄本”(TLB,页表缓冲)**,专门记录每个抽屉里有多少本书,这样工人不用每次都去问管理员,直接看小抄就能知道怎么拿。

4. 结果:又快又省

经过测试,这套新设计的效果非常棒:

  • 速度:每秒能处理 3830 万像素(Mpixels/s)。这就像眨眼之间就能处理完一张超高清图片的所有重复图案。
  • 省电:只消耗 277 毫瓦 的电力。这就像是用一个普通手机充电器的功率,就能驱动整个复杂的找书过程。
  • 意义:这意味着未来我们的电视、视频会议系统、甚至未来的芯片(ASIC),都能用上这个“独门绝技”,让画面传输更清晰、更流畅,而且不卡顿。

总结

简单来说,这篇论文就是为了解决**“在海量重复图案中快速找到最佳匹配位置”这个难题。
作者没有蛮干,而是通过
“流水线分工”(让不同的人同时干活)和“重新整理书架”**(让数据存放更有序)这两招,把原本慢吞吞的“找书”过程,变成了一条高效、省力的自动化生产线。这让 JPEG XS 这种低延迟压缩技术,终于能在真实的硬件设备上跑得飞起。