Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。
4363 件の論文
本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。
この論文は、マルチモーダル大規模言語モデル(MLLM)の画像分類性能が評価プロトコルの欠陥やアノテーションの質に大きく依存しており、これらの問題を修正することで教師ありモデルとの性能差が縮小し、MLLM が大規模データセットの作成支援にも有効であることを示しています。
この論文は、動画予測ニューラルネットワークを用いて新たな視覚運動錯覚を生成するモデル(EIGen)を開発し、人間も同様に錯覚することを確認することで、錯覚が脳の予測機能に起因する可能性を示し、人工知能研究において生物の「意図的な失敗」を模倣する価値を提唱しています。
本論文は、生物の知覚適応を模倣し、予測誤差とベイズ的驚きという自由エネルギー原理の構成要素を統合した「FEP-Nav」と呼ばれるフレームワークを提案し、勾配ベースの更新なしにリアルタイムで知覚を適応させることで、ノイズや欠損のある環境下でもロボットが堅牢に視覚ナビゲーションを遂行できることを示しています。
本論文は、既存のテキストベースの 3D 編集手法が抱える一貫性の欠如という課題を解決するため、拡散モデルのスコア歪みサンプリング(SDS)を編集タスク向けに改良した「SDS-E」を導入し、指示に基づき元のアバターの形状を維持しつつ高品質な 3D 人間のテクスチャ編集を実現する「InstructHumans」フレームワークを提案するものです。
本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。
本論文は、人間の運動速度や強度によるブレを考慮した物理モデルと 3D 運動モデルを統合し、多視点のぼやけた動画から直接鮮明な 3D 人間アバターを再構築する新たな手法を提案しています。
この論文は、事前学習済み動画拡散モデルをテスト時に微調整し、最初のフレームでの可視領域マスクのみを入力として用いることで、物体が完全に隠蔽されている場合でもゼロショットで物体の可視・非可視領域を推定する新しいパイプライン「Track Anything Behind Everything (TABE)」を提案しています。
本論文は、大規模拡散モデルの再学習を必要とせず、学習可能なスパース化マスクと時間ステップ勾配チェックポイント法を用いて、メモリ効率を維持しつつパラメータを最大 20% 削減できるモデル非依存の構造化剪定フレームワークを提案するものである。
本論文は、トレーニング時の平坦な最小値とテスト時の損失平坦領域の整合性を活用する「Flatness-Guided Adaptation (FGA)」フレームワークを提案し、テスト時の計算コストを抑えつつ視覚言語モデルの分布シフトへの適応性能を大幅に向上させることを示しています。
この論文は、2D 視覚ダイナミクスだけでは不十分な深度方向の移動を伴う操作タスクに対応するため、自己教師あり学習を通じて 3D 世界モデルと方策学習を統合し、推論速度を犠牲にすることなく操作性能を大幅に向上させる「3D 先見性」を備えた新しい操作フレームワークを提案しています。
本論文は、医療画像の連続的な性質を捉え大規模データセットへの拡張を可能にする統合フレームワーク「MedFuncta」を提案し、メタ学習と疎な教師信号を用いた効率的な学習戦略、SIREN 活性化関数の改良、および大規模医療神経場データセット「MedNF」の公開を通じて、医療分野における神経場(Neural Fields)の学習と応用を革新するものです。
この論文は、複数の視点と人物にまたがる全身のヒトポーズ推定をミリ秒単位で高速かつ汎用的に実現する新しいアルゴリズム「RapidPoseTriangulation」を提案し、そのコードとデータを公開しています。
本論文は、ノイズの多いゴーストイメージングの再構成において、教師なし学習を用いて参照データなしで高品質な結果と強力なノイズ低減を実現する新しい自己教師あり深層学習手法「Noise2Ghost」を提案し、低光量環境下での生体試料や電池などの応用を可能にする数学的枠組みと実証結果を示すものである。
本論文は、過去の走行データから得られるグローバルな占有マップを事前知識として活用し、局所的な 3D 占有予測の精度向上と大規模なグローバルマップの継続的更新を同時に実現するプラグアンドプレイ型フレームワーク「LMPOcc」を提案する。
本論文は、大規模言語モデル(LLM)と rPPG 固有のコンポーネントを協調最適化する「PhysLLM」フレームワークを提案し、テキスト原型ガイダンスや双領域定常アルゴリズムを通じて照明変化やモーションアーティファクトに頑健な遠隔生理信号計測を実現し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。
本論文は、高忠実度かつ長期的な一貫性を持つリアクティブダンス生成を実現するため、細やかな空間表現を可能にする階層的有限スカラー量子化(HFSQ)と、効率的な長系列生成を可能にするブロック単位局所コンテキスト(BLC)戦略を備えた拡散モデル「ReactDance」を提案するものです。
本論文は、カメラとレーダーの融合を用いた鳥瞰図セグメンテーションにおいて、段階的な残差自己回帰学習と双経路ボクセル特徴符号化を組み合わせることで、高精度かつリアルタイムな環境認識を実現する「RESAR-BEV」という説明可能なフレームワークを提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、超解像技術と双方向の頭部・視線相互注意メカニズム(DHECA)を導入し、Gaze360 データセットの注釈誤りを修正することで、制約のない環境における視線推定の精度と汎用性を大幅に向上させた DHECA-SuperGaze を提案しています。
本論文は、外部データやモデルに依存せず、アテンションベースのオブジェクトマスクとオブジェクト重み付き SimPO 損失を活用してオブジェクトレベルのテキスト - 画像整合性を強化し、物体の幻覚を削減する自己改善型ファインチューニング手法「OSPO」を提案し、その有効性を示したものである。