Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound
この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。
1863 件の論文
この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。
VGGT やなどの多視点 3D モデルが抱える計算コストの課題に対し、グローバル注意機構の役割を分析し、学習不要の 2 段階加速手法を提案することで、精度を維持しつつ最大 10 倍の推論高速化を実現する論文です。
この論文は、衛星画像における船舶検出の課題である極端なスケール差とアスペクト比に対処するため、検出ピラミッドレベルを P3-P5 から P2-P4 へシフトさせ、グループ正規化を用いた補助ブランチを統合した軽量かつ高精度な検出器「LiM-YOLO」を提案し、主要なベンチマークで最先端の性能を達成したことを報告しています。
本論文は、RL におけるサンプルの難易度事前分布を活用してヒントの比率を適応的に調整し、勾配変調とロールアウト難易度事後分布に基づく優位性推定を導入することで、探索と模倣のバランスを最適化し、推論能力と分布外汎化性能を大幅に向上させる「ADHint」という新しい手法を提案しています。
この論文は、埋め込みノルムの膨張が複雑なプロンプトの失敗原因であることを特定し、方向のみを最適化する「方向性テキスト反転(DTI)」を提案することで、テキスト忠実性と被写体類似性を両立させ、学習済み概念間の滑らかな補間を可能にする個人化テキスト生成手法を開発したことを示しています。
この論文は、拡散モデルの強化学習における「好意モード崩壊(多様性の欠如)」を定量化する新しいベンチマーク「DivGenBench」を提案し、報酬モデルの埋め込み空間内で方向性補正を行う「方向性分離アライメント(D²-Align)」という手法により、多様性を維持しつつ人間の好みに優れた生成を実現することを示しています。
本論文は、顔偽造検出における汎化性能の向上を目指し、因果表現学習の観点から「低ランクの誤ったバイアス」を低ランク部分空間として特定し、その直交補空間を学習することで偽造痕跡に特化した検出器 SeLop を提案し、極めて少ない学習パラメータで最先端の性能を実現したことを報告しています。
この論文は、拡散モデルや自己回帰モデルなど多様な生成モデルが共有する最終的なアーキテクチャ成分を悪用して実画像を「汚染」し、その特徴を学習させることで、未見の生成モデルに対しても高い汎化性能(平均精度 98.83%)を実現する AI 生成画像検出手法を提案しています。
本論文は、FFA と ICGA の両方の眼科血管造影画像に対して、ハイパーネットワークに基づく適応的条件付け層(HaC)と証拠的不確実性学習に基づく信頼性予測スキーム(RaP)を導入した CLEAR-Mamba を提案し、既存手法を上回る汎用性と信頼性を実現したものである。
この論文は、スライス単位の構造検出を並列に行う検出ヘッドを統合し、その出力でセグメンテーション予測を制御するゲート付きマルチヘッド・トランスフォーマー・アーキテクチャを提案することで、解剖学的に存在しないスライスにおける偽陽性(ハルシネーション)を効果的に抑制し、放射線治療における自動セグメンテーションの信頼性と解剖学的妥当性を大幅に向上させることを示しています。
本論文は、推論過程で参照bounding boxの明示を強制し、大域・局所キャプションとの整合性を報酬として活用する強化学習フレームワーク「RegionReasoner」と、それを評価するための新しいベンチマーク「RegionDial-Bench」を提案し、検出・セグメンテーションタスクにおける多段階視覚推論の精度と空間的根拠付けを大幅に向上させることを示しています。
この論文は、WCAG2 の違反を検知し、元のデザインを維持しながら HTML を自動修正する「WebAccessVL」という視覚言語モデルを提案し、その手法が既存モデルを大幅に上回る高い精度でウェブサイトのアクセシビリティを改善できることを実証しています。
この論文は、長期動画生成におけるエラー蓄積の問題を、トレーニング不要で初期フレームを基準にサンプリング経路を補正する「Test-Time Correction(TTC)」という手法により解決し、既存のテスト時間最適化法よりも安定した高品質な 30 秒動画生成を実現することを提案しています。
この論文は、単一画像からの法線推定における 3 次元位置の不一致問題を解決するため、法線推定を画像生成モデルを用いたシェーディングシーケンス推定として再定義し、合成データで学習した RoSE という手法を提案し、実世界ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、経験再生、学習可能なリーキー・インテグレート・アンド・ファイア(LIF)ニューロンパラメータ、および適応型スパイクスケジューラを統合したエネルギー意識スパイク予算枠組みを提案し、フレームベースおよびイベントベースの両方のデータセットにおいて、精度向上とエネルギー効率の最適化を同時に実現するスパイクニューラルネットワークの継続学習手法を開発したものである。
この論文は、情報理論的観点からマルチモーダル学習におけるモダリティ間の競合を分析し、特徴とラベル間の総相関を最大化する新たな手法「TCMax」を提案することで、既存の手法を上回る分類性能を実現したことを示しています。
この論文は、拡散モデルの推論遅延を軽減しつつ中間軌道の構造情報を保持するために、教師の軌道の各離散ステップに対応する複数のブランチを備えた学生モデルを提案し、密な軌道アライメントを通じて生成品質を向上させる「B-DENSE」と呼ばれる新しいフレームワークを紹介しています。
本論文は、臨床現場で利用可能な外部ガイダンスに依存せず、生成モデル自身が欠損状態を自己認識して推論する「CoPeDiT」という新しい 3D MRI 合成フレームワークを提案し、欠損モダリティやスライスの補完において最先端の手法を上回る高忠実度かつ構造的に整合性の高い結果を実現したことを報告しています。
本論文は、クラス共有 LoRA と画像固有 LoRA を組み合わせ、セマンティックなボスト手法とディリクレ分布に基づく混合生成を採用することで、データ不足領域において多様性と詳細さを両立した合成データを生成し、下流タスクの分類精度を向上させる「ChimeraLoRA」を提案するものである。
本論文は、sparse 教師ありセグメンテーション、知識に基づく制約推論、多基準意思決定分析という 3 つの手法を統合したニューロ記号フレームワーク「OrthoAI」を提案し、マウスピース矯正における 3D 歯のセグメンテーションと生体力学的妥当性の推論を自動化するものである。