TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
本論文は、動画要約におけるモダリティの動的な重要性をフレームレベルで適応的に統合する「TripleSumm」アーキテクチャと、3 つのモダリティを備えた大規模ベンチマーク「MoSu」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。
6587 件の論文
本論文は、動画要約におけるモダリティの動的な重要性をフレームレベルで適応的に統合する「TripleSumm」アーキテクチャと、3 つのモダリティを備えた大規模ベンチマーク「MoSu」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。
本論文は、高次元スペクトルデータとラベル不足という課題に対処するため、線形時間の効率性と関係性モデルを統合したハイブリッド Mamba-Transformer 構造と視覚・テキスト双方向プロンプトを導入し、少量の学習データで hyperspectral 画像分類において最先端の精度を達成する VP-Hype 枠組みを提案しています。
本論文は、部分的な 2D 観測から可視領域の復元と不可視領域の生成を統合的に実行し、リアルタイムで高品質な完全 3D 表現を出力する新しい Transformer モデル「RnG」を提案するものである。
本論文は、マルチモーダル指令微調整の効率と堅牢性を向上させるため、視覚情報の必要性を定量化して高品質なデータサブセットを選択するフレームワーク「VisNec」を提案し、LLaVA-665K の 15% のデータでフルデータ並みの性能、Vision-Flan-186K ではそれを上回る性能を達成することを示しています。
本論文は、LLM 支援によるカテゴリー間・カテゴリー内アライメントと二重ブランチ構造を用いて入力座標系から物体の機能的役割を捉える正準空間表現を学習し、オープンワールドにおける 3D セマンティックな部分セグメンテーションの精度と転移性を大幅に向上させる「CoSMo3D」を提案しています。
本論文は、手首に取り付けられたカメラからの単眼画像と自然言語入力を基に、事前学習済みビジョン・言語モデル(VLM)を QLoRA により微調整し、人間とロボットの対話に適した 3 次元物体位置推定を実現する手法を提案し、その有効性を示したものである。
この論文は、既存の視覚言語モデルが安全ポリシーの変化に追従できない課題を解決するため、多様なポリシー下での一般化性能を評価する新しいベンチマーク「SafeEditBench」を提案し、検証可能な報酬を用いた強化学習手法「SafeGuard-VL」を開発して、動的に変化する安全ポリシーに適応する画像ガードレールの実現を目指したものです。
本論文は、大規模視覚言語モデルにおける視覚トークン剪定手法の分析を通じて、アテンションと多様性の特性を解明し、画像の複雑さに応じて適応的に調整する「AgilePruner」を提案することで、性能と幻覚抑制の両立を実現したものです。
MAMA-MIA チャレンジは、米国と欧州の多施設データを用いて乳房 MRI 画像の腫瘍セグメンテーションと治療反応予測のモデルを評価し、汎用性と公平性の向上を促進する大規模なベンチマークを提供するものである。
この論文は、拡散モデルを再学習させることなく、X 線 CT などの補助モダリティを活用して中性子 CT のスパースデータからの高品質な再構成を可能にするクロスモーダルガイダンス手法を提案し、その有効性を検証したものである。
この論文は、シャール緩和とブーア・モンテフィオ因子分解がファクターグラフの構造を保持するという洞察に基づき、既存の成熟したライブラリを用いて安全なロボット状態推定における大規模な凸緩和問題を効率的に解くための統一的なフレームワークを提案しています。
本論文は、自律走行における軌道予測の課題を解決するため、周波数領域と時間領域を統合し、長距離依存関係とマルチモーダル不確実性を線形時間計算量で効率的にモデル化する新しいフレームワーク「FoSS」を提案し、Argoverse ベンチマークにおいて最先端の精度を達成しながら計算コストとパラメータ数を大幅に削減することを示しています。
本論文は、従来のマルチタスク学習が抱えるタスク間の干渉や硬直的な調整の課題を解決するため、セグメンテーションと分類タスク間の双方向通信を多レベルで実現し、不確実性に基づいて適応的にタスクバランスを制御する新しい乳腺超音波画像解析フレームワークを提案し、複数の公開データセットで高い性能を実証しています。
この論文は、医療用 VLM における強化学習(RL)の効果を、視覚能力、教師あり微調整(SFT)、RL の各要素に分解して分析し、RL が SFT によって獲得された一定の正解候補の存在下で出力分布を鋭くし精度を向上させることを明らかにするとともに、その知見に基づいた効率的な学習レシピを提案し、複数の医療 VQA ベンチマークで高い性能を達成したことを示しています。
本論文は、抽象的な異常概念を明確な視覚的実体に変換し、高レベルのセマンティクスとピクセルレベルの空間特徴を精密に整合させるために、3 つの学習可能なアンカートークンと新たな大規模指令データセットを導入することで、ゼロショット視覚異常セグメンテーションにおいて最先端の性能を達成する AG-VAS フレームワークを提案しています。
この論文は、災害後の視覚的状況理解において、大規模事前学習に基づくオープンボキャブラリーモデルと従来の教師あり学習を比較評価し、ラベル空間が固定され注釈データが利用可能な場合には、特に小物体や複雑な背景における境界の精密な特定において教師あり学習が依然として最も信頼性の高い手法であることを明らかにしています。
本論文は、低解像度の顔画像から直接高品質で整合性の高い新規視点画像を生成する単一段階の手法「NVB-Face」を提案し、従来の「復元→合成」という 2 段階アプローチの欠点を克服したことを示しています。
本論文は、アライメントなしのマルチスペクトル画像から高解像度の分光画像を復元する新しいフレームワーク「PEFD」を提案し、カメラの投影幾何学を利用した空空間情報の回復と事前学習済み基盤モデルの効率的な微調整により、教師なしで既存手法を凌駕し、教師あり学習に迫る性能を達成することを示しています。
本論文は、CNN、Transformer、Mamba の各利点を統合した「TransMixer」や方向誘導エッジゲート畳み込みなどの新機構を導入し、複雑なひび割れパターンを高精度かつ極めて軽量(2.05 GFLOPs、2.54M パラメータ)に検出する新しいセグメンテーションアーキテクチャ「MixerCSeg」を提案するものです。
本論文は、事前学習済み画像から 3D モデル生成モデルが持つ空間的事前知識を最大限に活用し、追加学習なしで複数の 3D オブジェクトを高精度に配置・分離する「TIMI」という新しいフレームワークを提案するものである。