Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy
この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。
2834 件の論文
この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。
本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。
本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。
本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。
本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。
本論文は、ビジョン・ファウンデーションモデルを教師として活用し、セマンティックセグメンテーションと深度推定を同時に行う効率的なドメイン適応型マルチタスク学習フレームワーク「FAMDA」を提案し、合成から実世界への転移や昼夜間適応において最先端の性能と軽量性を両立させることを示しています。
本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。
本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。
本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。
本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。
本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。
本論文は、強化学習と自己ロールアウト機構を組み合わせることで、リアルタイムかつ高精度な運動制御を実現し、既存の拡散モデルに比べて大幅な遅延低減と高画質を両立する初の RL 強化型少量ステップ自己回帰動画生成モデル「AR-Drag」を提案するものである。
本論文は、2018 年から 2025 年にかけて脳 MRI 画像の異常検出に応用された教師なし深生成モデルに関する 33 件の研究を体系的にレビューし、その潜在的可能性と方法論的な課題、そして今後の臨床的有用性を高めるための新たな方向性を明らかにしたものである。
本論文は、音声と視覚の連続学習におけるモダリティの干渉を解決するため、マルチモーダルなサンプル選択と衝突に基づくリハーサル機構を組み合わせた新しいフレームワークを提案し、音声誘導型の連続オーディオ・ビジュアルセグメンテーションタスクにおける性能向上を実証しています。
本論文は、自律走行の知覚タスクにおける合成データの有用性を検証し、3D 資産を駆使して多視点のコーナーケースを大規模に生成する新たなフレームワーク「Dream4Drive」と大規模 3D アセットデータセット「DriveObj3D」を提案し、下流の知覚モデルの性能向上を実証しています。
本論文は、動的な Gaussian Splatting における多様な課題を解決するため、複数の専門家の出力を画素レベルで適応的に統合する「Volume-aware Pixel Router」を備えた Mixture of Experts 手法「MoE-GS」を提案し、最先端の描画品質と効率性を両立させることを示しています。
この論文は、多様なデータ密度に対する堅牢なコンテキストモデルと、分布外データへの効率的な適応を可能にするインスタンス適応型微調整戦略を導入した汎用点雲圧縮フレームワーク「AnyPcc」を提案し、15 の多様なデータセットにおいて新たな最先端性能を達成したことを示しています。
この論文は、ロボットアームによる能動的な撹拌と適応制御システムを導入することで、水トラップ内の害虫の重なりを解消し、高密度環境下でも従来の静止画像法よりも高い精度で害虫を自動計数する手法を提案しています。
本論文は、自己教師あり学習に基づくビジョン基盤モデル DINOv2 を用いたトランスフォーマーフレームワーク「CountFormer」を提案し、例示なしの物体数え上げにおいて視覚的反復や構造の学習がどのように改善されるかを検証し、FSC-147 ベンチマークで競争力のある性能を示すとともに、表現の質が数え上げ精度に重要であることを明らかにしています。
本論文は、線形ブレンドや既存の生成手法では困難であった多様なクリップ間の滑らかな遷移を実現するため、アートのワークフローから着想を得て構造情報と生成合成を組み合わせ、微調整なしに高品質な中間フレームを生成するゼロショット手法「SAGE」を提案し、定量的・定性的な評価で既存手法を上回る性能を示したものです。