Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing
本論文は、画像編集における理解モジュールと生成モジュールの役割分担の非対称性を解消するため、複雑な指示理解と編集の設計図を明示的に提供する大規模データセット「Draw-In-Mind」を提案し、これにより小規模モデルでも最先端の画像編集性能を達成することを示しています。
6618 件の論文
本論文は、画像編集における理解モジュールと生成モジュールの役割分担の非対称性を解消するため、複雑な指示理解と編集の設計図を明示的に提供する大規模データセット「Draw-In-Mind」を提案し、これにより小規模モデルでも最先端の画像編集性能を達成することを示しています。
本論文は、高次球面調和関数の代わりに軽量な球面ガウスローブを採用し、プリミティブ数とローブ数の剪定を統合的に最適化する「MEGS」を提案することで、レンダリング時の VRAM 使用量を大幅に削減しつつ画質を維持するメモリ効率の良い 3D ガウススプラッティング手法を確立した。
本論文は、継続的学習における「可塑性の喪失」を軽減するため、活性化関数の形状(負の枝の形状と飽和挙動)を分析し、追加容量やタスク固有の調整なしに汎用的に可塑性を維持できる新しい活性化関数を提案することを示しています。
本論文は、手動の UV マッピングに依存せず、セマンティックな整合性と可視性(目立たない継ぎ目)を考慮した教師なし学習フレームワークを提案し、3D メッシュのパラメータ化を自動化してテクスチャ生成の品質向上と継ぎ目アーティファクトの低減を実現するものである。
本論文は、自動運転を次なる経路点の予測という言語生成問題として再定義し、大規模な専門家データからの模倣学習により nuScenes データセットで最先端の性能を達成する、軽量かつ強力なエンドツーエンド型ビジョン・言語モデル「Max-V1」を提案しています。
本論文は、3D ガウススプラッティングを N 次元の異方性ベータカーネルに一般化した統一フレームワーク「Universal Beta Splatting」を提案し、補助ネットワークを必要とせずに空間・角度・時間的な依存関係を統一的にモデル化することで、リアルタイムレンダリング性能と既存手法を上回る画質を実現するものです。
この論文は、暗所でのロボティクス視覚を強化するため、赤外線画像のノイズを除去し高品質な画像を再構築する「CLEAR-IR」という新しい手法を提案し、既存の技術を上回る性能で RGB 画像で訓練されたタスクを極低照度環境でも実行可能にすることを示しています。
本論文は、機械学習演算子(MLO)が学習解像度と異なる解像度での推論(ゼロショット超解像)においてエイリアシングに陥り失敗することを示し、その課題を克服するための効率的な多解像度学習プロトコルを提案しています。
DINOv2 の SAE 解析を通じて、従来の線形表現仮説を補完し、トークンがアーキタイプ間の凸結合として構成される「ミンコフスキー表現仮説」を提唱し、視覚トランスフォーマーの概念空間における幾何学的・機能的構造を解明した。
本論文は、単眼入力からの動的 3D 場面の再構成において、観測の信頼性に基づいてガウスプリミティブの運動を最適化する「USplat4D」という不確実性認識型フレームワークを提案し、被りや極端な視点変化に対する安定性と合成品質の向上を実現するものである。
本論文は、マルチモーダル大規模言語モデル(MLLM)を用いて正常な動画から物体の活動や相互作用に関する高レベルなテキスト記述を生成し、これをテスト時の記述と比較することで、複雑な相互作用に基づく異常を検出するとともに説明可能性を付与する、新しい半教師あり動画異常検出フレームワークを提案するものです。
本チュートリアルは、3D ガウススプラッティング(3DGS)の理論とパイプラインを概説し、その限界への対応策を論じるとともに、サーフェス再構成やアバターモデリングなど多様な応用分野におけるその可能性を調査する。
この論文は、情報量の多い画像における視覚的推論の課題を解決するため、複数の軽量ドラフトモデルが生成する多様な推論パスを大規模モデルが統合・検証するトレーニング不要のフレームワーク「Speculative Verdict」を提案し、高精度かつ計算コストの低い推論を実現したことを示しています。
本論文は、ゼロショット異常検出において、各視覚トークンを意味的親和性に基づいて動的に直交するテキスト部分空間へ割り当てるトランスポート計画を最適化し、従来の単一テキスト空間の限界を克服する「TokenCLIP」というトークン単位の適応フレームワークを提案するものです。
既存の単一画像に限定された手法の限界を克服するため、複数の画像を含む実世界データを基盤とした新しいベンチマーク「MMSD3.0」と、画像間の関連性を捉えるためのクロス画像推論モデル(CIRM)を提案し、単一・複数画像の両シナリオで最先端の性能を達成したことを示しています。
本論文は、敵対的攻撃下での CLIP の頑健性を向上させるため、最適輸送に基づく「COLA」と呼ばれる学習不要のフレームワークを提案し、画像とテキストの潜在空間における整合性を回復することで、敵対的摂動下での分類精度を大幅に改善することを示しています。
本論文は、事前学習済み視覚表現の持つタスク無関係な情報への脆弱性を解決するため、タスクに関連する視覚手がかりに自動的に注目しノイズを無視する軽量な「注意機能集約(AFA)」を提案し、これによりデータ拡張や微調整なしで視覚的擾乱に対する強固な視覚運動制御ポリシーを実現することを示しています。
この論文は、フローマッチングモデルからの期待値推定における高分散問題を解決するため、スコア正則化による多様性確保と、残差速度場に基づく重要度重み付けを組み合わせた非独立同分布サンプリング手法を提案し、高品質な多様なサンプルと正確な推定値の両立を実現するものです。
本論文は、限られた脳 MRI 画像データを用いた腫瘍分類タスクにおいて、医療ドメインで事前学習された RadImageNet DenseNet121 よりも、大規模な汎用データセットで事前学習された最新の一般目的 CNN(特に ConvNeXt-Tiny)の方が高い性能を発揮することを示しています。
本論文は、生成動画の評価において視覚的・動的・テキスト整合性の 3 次元を統合的に定義し、約 1 万件のアノテーション付きデータセットと、Chain-of-Thought による段階的学習を採用した統一評価モデル「Q-Save」を提案し、高精度な品質予測と解釈可能な理由付けを両立させることを示しています。