From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents
本論文は、人間の認知過程に着想を得たピラミッド型マルチモーダルメモリ「MM-Mem」を提案し、視覚的詳細から意味的抽象へ段階的に情報を要約する仕組みと、意味情報ボトルネックに基づく最適化手法を導入することで、長期にわたる動画理解タスクにおける既存モデルの限界を克服し、効率的かつ高精度な推論を実現するものです。