Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

この論文は、マルチターン対話における連続的な動画ストリームの推論を可能にするため、セグメントレベルのメモリを維持し、視聴と思考を並行して行う「Think While Watching」という新しいフレームワークを提案し、Qwen3-VL 基盤で StreamingBench や OVO-Bench などのベンチマークにおいて高い精度と効率的なトークン生成を実現したことを示しています。

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文「Think While Watching(見ながら考える)」は、**「動画を見ながら、リアルタイムで質問に答える AI」**をより賢く、効率的にするための新しい仕組みを紹介しています。

従来の AI は、動画の「すべて」を一度に読み込んでから回答する「オフライン型」が得意でした。しかし、ライブ配信や監視カメラのように、動画が次々と流れてくる「ストリーミング」環境では、従来の AI は以下の 2 つの大きな問題を抱えていました。

  1. 記憶の欠落(Memory Erosion): 動画を見ながら話しているうちに、昔の出来事を忘れてしまう。
  2. 通信の渋滞(Serialization Bottleneck): 答えを生成している間、新しい動画の読み込みが止まってしまう。

この論文の解決策を、**「賢い映画鑑賞者」**の例えを使って説明します。


🎬 従来の AI:「メモを取らずに、一語一句聞き逃さない」タイプ

従来のストリーミング AI は、以下のような動きをしていました。

  • 動画(映画): 画面が流れてくる。
  • AI の動き: 画面を見たらすぐに「あ、これは魔法使いだ!」と口に出して答えようとする。
  • 問題点:
    • 口に出して答えている間、画面を見るのを止めてしまう。だから、次のシーンを見逃す。
    • 長い会話になると、**「最初の質問で誰の話だったっけ?」**と、前の内容を忘れてしまう(記憶の欠落)。
    • 結果として、遅延が溜まり、リアルタイム性が失われる。

💡 新しい AI(Think While Watching):「メモ帳を持ちながら、同時進行で考える」タイプ

この論文が提案する「Think While Watching」は、**「見ながら、同時にメモを取り、そのメモを頼りに答える」**という仕組みです。

1. 「シーンごとのメモ帳」を作る(Segment-Level Memory)

動画は長いので、全部を頭の中に覚えようとせず、「10 秒ごとの区切り(セグメント)」ごとに、その瞬間の重要なポイントを短いメモに書き留めます。

  • :
    • 0-10 秒:「黒いコートの魔法使いが登場」→ メモ帳に書く
    • 10-20 秒:「審査員が拍手」→ メモ帳に追加
    • 30 秒後:「前の 2 問で登場した人たちは何をしてた?」と聞かれたら?
    • AI の動き: 画面を見るのを止めずに、メモ帳をパラパラとめくって「あ、黒いコートの魔法使いと審査員が拍手してたな」と答えを出す。

これにより、長い動画を見続けても、重要な情報はメモ帳(メモリ)として残り、忘れなくなります。

2. 「見る」と「考える」を同時に行う(Parallelism)

これが最大の工夫です。

  • 従来の AI: 「見る」→「止まって考える」→「見る」→「止まって考える」(直列)
  • 新しい AI: 「見る」を続けながら、裏で「メモ帳に書く」作業や「答えを考える」作業を並行して行います。

🏭 工場のラインに例えると:

  • 従来: 部品(動画)が流れてくる。組み立て(回答)が終わるまで、次の部品は受け取れない。だからラインが渋滞する。
  • 新しい方法: 部品を受け取りながら、別の作業台で組み立てを行う。「受け取り」と「組み立て」が同時に進むので、ラインは止まらず、遅延も減ります。

3. 3 ステージのトレーニング(練習方法)

この AI を賢くするために、3 つの段階で練習させました。

  1. ステージ 1(単発練習): 短い動画を見て、1 回だけ質問に答える練習。メモの書き方を覚える。
  2. ステージ 2(会話練習): 何回も質問を繰り返す練習。前のメモを思い出して、新しい答えを作る練習。
  3. ステージ 3(長編・難問練習): 長い動画や、関係ない映像(ダミー)が混じっている状況で、重要な情報だけを見極める練習。

🏆 結果:どれくらいすごいのか?

実験の結果、この新しい方法は以下のような成果を上げました。

  • 精度向上: 動画のリアルタイム理解のテストで、従来の AI よりも2〜4% ほど正解率アップ
  • 効率化: 何回も質問するマルチターン(多回会話)の状況では、出力する文字数を 56% も減らしながら、同じ精度を維持できました。
    • つまり、**「無駄な言葉を減らして、必要なことだけを素早く答える」**ことができるようになりました。
  • 遅延の解消: 答えを返すまでの待ち時間(レイテンシ)が大幅に短縮されました。

🌟 まとめ

この論文は、**「動画を見ながら、次々と質問に答える AI」にとって、「メモ帳(メモリ)を上手に使い、見る作業と考える作業を同時にこなす」**ことが、記憶を失わず、遅延なくリアルタイムで会話するための鍵だと示しました。

これにより、ライブ配信のチャット対応や、ロボットのリアルタイムな視覚理解など、「今、起きていること」に即座に対応できる AIの実現が近づきました。