Automatic Funny Scene Extraction from Long-form Cinematic Videos

本論文は、映像・音声・テキストの多様なモダリティを活用して長編映画から自動的に面白いシーンを検出・ランク付けし、動画プレビューや短尺コンテンツの作成を効率化するエンドツーエンドのシステムを提案し、その有効性を示しています。

Sibendu Paul, Haotian Jiang, Caren Chen

公開日 2026-02-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「映画やドラマの長い動画から、自動的に『面白いシーン』だけを見つけて切り取るシステム」**を作ったという話です。

Netflix や Amazon Prime Video などの動画配信サービスでは、ユーザーが「この映画、面白そう!」と思ってクリックしたくなるような、短い面白い動画(スナックコンテンツ)を作りたいと考えています。しかし、2 時間もある映画を人間が全部見て「ここが面白い!」と手作業で切り取るのは、とても時間がかかり大変です。

そこで、この研究チームは**「AI 助手」**のようなシステムを開発しました。これを、料理や映画館の例えを使って簡単に説明しますね。

1. 全体の仕組み:3 段階の「面白い料理」を作るプロセス

このシステムは、長い映画という「大きな食材」を、美味しい「一口サイズのつまみ」に変えるために、3 つのステップを踏みます。

ステップ①:映画を「小分け」にする(ショット検出とシーン分割)

まず、映画をカメラが切り替わる瞬間ごとに細かく切ります(これを「ショット」と言います)。
しかし、ただ切るだけではダメです。同じ「シーン(場面)」の中にいるショットをまとめないと意味がありません。

  • 例え話: 映画を長い「パスタの麺」だと想像してください。
    • 従来の方法は、パスタを適当に切ったり、見た目だけで区切ったりしていました。
    • この研究の工夫: AI が「このパスタの断片は、同じ鍋(同じシーン)に入っている仲間だ!」と見分けるために、**「顔の似ている人」**をグループ化する技術を使いました。
    • さらに、映像だけでなく、そのシーンの**「セリフ(テキスト)」**も読み取って、「あ、このセリフとこの映像は同じ話の流れだ」と判断します。これにより、映画のストーリーの流れを正しく理解して、シーンごとにきれいに区切ります。

ステップ②:どのシーンが「面白い」か見極める(ユーモア検出)

シーンが区切れたら、次は「どれが面白い?」と判断します。ここが最も難しい部分です。

  • 例え話: 料理の味見をするようなものです。
    • 笑い声の検知: 観客や登場人物が「フフフ」と笑っている音(音声)を AI が聞き取ります。
    • セリフの分析: 笑っている音がない場合でも、「オチ(パンチライン)」がある面白い会話があるかどうかもチェックします。
    • ここがすごい点: 従来の AI は短い動画しか見れませんでしたが、このシステムは**「長い映画のセリフ」**も理解できるように訓練されました。まるで、長い小説を読んで「ここが笑える」とわかるようなものです。

ステップ③:「まずい料理」を捨てる(フィルタリングとランキング)

面白いからといって、すべてを公開していいわけではありません。

  • 例え話: 料理に「毒」が入っていないかチェックする味見係です。
    • 相手をいじめたり、嫌なことを言ったりする「悪意のある笑い」は、面白いとは限りません。
    • このシステムは、「悲鳴」や「泣き声」などの不快な音を自動で検知し、そういうシーンは「面白いリスト」から除外します。
    • 残った面白いシーンに「面白さのスコア」をつけて、一番笑える順に並べ替えます。

2. このシステムがすごいところ

  • 精度が高い: 既存の技術と比べて、シーンを見つける精度が18% 以上向上しました。
  • 人間に近い判断: 専門家の審査員(キュレーター)にチェックさせたところ、87% の確率で「これは面白いシーンだ」と正しく見つけ出しました。また、98% の確率でシーンの切り出し位置も正確でした。
  • 応用範囲が広い: 映画だけでなく、予告編(トレーラー)や、アニメ、ドラマなど、どんなジャンルでも使えます。

3. 将来の展望

このシステムは、すでに Amazon Prime Video で一部使われ始めています。

  • 現在の使い方: マウスをタイトルの上に置くと、その映画の「面白い短い動画」が自動で流れてくる機能。
  • 将来の夢: スマホで「サクッと笑える動画」を次々と見られる「ファスト・ラフ(素早い笑い)」体験や、ユーザーの好みに合わせたパーソナライズされた動画の作成などです。

まとめ

この論文は、**「AI に『面白い』という感覚を教える」という挑戦です。
映像の見た目、セリフの意味、そして笑い声の音。これらをすべて組み合わせて、まるで
「映画の味見係」**が働いているように、長い映画から最高の「面白い瞬間」だけを自動で選りすぐってくれるシステムを作りました。これにより、動画配信サービスの楽しさがさらに深まることを目指しています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →