Point Cloud as a Foreign Language for Multi-modal Large Language Model
本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。
2769 件の論文
本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。
本論文は、画像などの初期データが一切不要なゼロデータ環境で視覚言語モデル(VLM)の推論能力を自己進化させる初の強化学習フレームワーク「MM-Zero」を提案し、提案者・コーダー・ソルバーという 3 つの役割を単一モデルから GRPO により訓練することで、従来の 2 役割モデルの枠組みを超えた拡張可能な自己改善を実現したものである。
本論文は、カメラの視点やスケールに依存しない関節角度記述子を用いた幾何学的メトリック学習フレームワークを提案し、限られたターゲット言語のデータで多言語手話認識の精度を大幅に向上させる手法を明らかにしています。
本論文は、医療用血管様解剖の複雑なトポロジーを自然言語プロンプトと視覚表現を統合したマルチモーダル基盤モデル「TubeMLLM」によってモデル化し、15 のデータセットで分布外性能やゼロショット転移能力において既存手法を凌駕する新たなベンチマーク「TubeMData」を提案するものである。
この論文は、正のクラスを高次元空間のコンパクトな集合に、負のクラスを原点にマッピングする新しい損失関数を提案し、これにより正のクラスの特徴のみを抽出・解離できる軽量で汎化性能に優れた分散畳み込みニューラルネットワーク(DisCNN)を構築し、複雑な背景における物体検出を可能にすることを示しています。
本論文は、MRI 画像の画質向上において、3D 基盤モデルの活用、物理メカニズムに基づくスペクトル補正、および大規模なマルチフィールド対データセットの構築を通じて、異なる磁場強度間での汎化性能を飛躍的に向上させる統合フレームワーク「UniField」を提案し、既存手法を大幅に上回る性能を実現したことを報告するものです。
本論文は、ドローンや回転機械の安全な知覚のために、従来のフレームベースやイベントベースの追跡手法が苦手とするプロペラ状物体の高速な周期性運動を、イベントカメラを用いた「HelixTrack」という手法でリアルタイムかつマイクロ秒レベルの遅延で追跡・回転数推定し、その評価のために新規データセット「TQE」を公開したことを提案するものです。
本論文は、着用状態の画像から平らな衣服表現を生成する仮想試着(VTOFF)において、部分的な視認性からの連続的な詳細の推論と構造的な安定性を向上させるため、衣服の条件を橋渡しするモジュールと平らな構造の制約を注入するモジュールを組み合わせた拡散モデル「BridgeDiff」を提案し、最先端の性能を達成したことを示しています。
本論文は、従来の潜在空間に依存せず DINOv2 の密な視覚特徴空間でナビゲーションダイナミクスをモデル化し、CDiT-DH と時間駆動ゲート機構を用いて構造安定性と動作精度を向上させた「RAE-NWM」を提案するものである。
この論文は、AI 生成画像検出において事前学習された意味的知識への依存(意味的フォールバック)が汎化性能を阻害する要因であることを特定し、幾何学的制約を用いて意味成分を明示的に除去するパラメータフリーのモジュール「Geometric Semantic Decoupling (GSD)」を提案することで、未見の生成手法や異なるドメインに対する検出器の汎化性能を大幅に向上させることを示しています。
高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。
本論文は、事前学習済みおよびカスタム設計のニューラルネットワークを統合し、交通標識・車両・車線検出ならびに行動模倣といった自律運転の主要タスクを包括的に処理するマルチモデル手法を提案し、その有効性を複数のデータセットとシミュレーターを用いて検証したものである。
この論文は、画像やテキストなど異種の特徴を持つマルチモーダルグラフにおいて、静的な構造や密なアテンションに依存する既存手法の限界を克服し、モダリティ固有の擬似ノードと動的な情報経路を活用することで、適応的かつ効率的なグラフ表現学習を実現する「DiP」と呼ばれる新しいフレームワークを提案し、複数のベンチマークで優れた性能を示したことを述べています。
本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。
本論文は、産業分野におけるテキストから 3D 生成の課題であるドメイン適応と幾何学的推論の欠如を解決するため、カテゴリ間干渉を排除するマルチエキスパート LoRA 集合体と、高次構造依存関係を捉えるクロスビューハイパーグラフ幾何強化を導入した「ForgeDreamer」という新たなフレームワークを提案しています。
この論文は、ガウシアンリストの短縮とエントロピー制約を導入することで、3D ガウシアンスプラッティングの学習効率を大幅に向上させつつ、レンダリング品質を維持する新たな手法を提案しています。
この論文は、影、急激な動き、マスクの欠陥といった現実世界の不完美な条件下でも、MUSE、DA-Seg、カリキュラム学習に基づく 2 段階トレーニングという 3 つの主要な設計により、時間的安定性と視覚的一貫性を維持しながら物体を安定して除去する新しいフレームワーク「SVOR」を提案し、動画物体除去を理想的な環境から実世界応用へと進展させるものです。
この論文は、古典的な凸性の定義に基づく自己教師ありの幾何学的目的関数を用いて連続的な特徴場を学習し、物理シミュレーションの衝突検出などに応用可能な高品質な凸分解を、メッシュやCAD モデル、ガウシアンスプラットなど多様な 3D 表現に対して汎用的に実行できる最初のフィードフォワードモデルを提案するものである。
CogBlender は、認知空間と意味多様体のマッピングとフローマッチング手法の再定式化により、画像生成プロセスにおいて価性や覚醒度などの認知属性を連続的かつ多角的に制御し、意図した心理的効果を持つ画像を生成する新しいフレームワークを提案するものです。
本論文は、マルチモーダル物体追跡において既存手法の課題である均一な融合と時系列情報の混在を解決するため、モダリティ固有の融合と時系列情報の分離伝達を実現する新しいフレームワーク「MDTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。