Towards High-resolution and Disentangled Reference-based Sketch Colorization
本論文は、トレーニングデータと推論データの分布シフトを直接最小化し、セマンティック整合・非整合の双ブランチ構造と Gram 正則化、さらに SDXL 向けのアニメ固有タグネットワークを組み合わせることで、高解像度かつ制御性の高い参照ベースのスケッチ彩色を実現する新たなフレームワークを提案しています。
4144 件の論文
本論文は、トレーニングデータと推論データの分布シフトを直接最小化し、セマンティック整合・非整合の双ブランチ構造と Gram 正則化、さらに SDXL 向けのアニメ固有タグネットワークを組み合わせることで、高解像度かつ制御性の高い参照ベースのスケッチ彩色を実現する新たなフレームワークを提案しています。
この論文は、奥行き情報や幾何学的較正を意図的に排除し、VR 遠隔操作による少量のデータで VLA ポリシーを微調整することで、複雑な環境下でのイチゴ収穫タスクにおいて 74.0% の成功率を達成した初の研究を紹介しています。
この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査(AOI)システムの開発と産業への応用を提案するものである。
本論文は、非同期かつ不均等な間隔で観測される時系列データ(ISTS)の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。
本論文は、事前学習された透視図法のパターンを維持しつつ、ERP と CP の 2 種類の投影から得られるモジュレーション信号と自己条件付き AdaLN-Zero 機構を導入することで、全景画像の深度推定において少量データで高い性能を実現する「RePer-360」というフレームワークを提案しています。
本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。
この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。
本論文は、大規模言語モデルによる意味論的推論と拡散トランスフォーマーによる文脈内学習を統合し、個別の微調整を不要とする大規模合成データセット「EffectData」を活用することで、高品質かつ汎用的なカスタマイズ型視覚効果生成を実現するフレームワーク「EffectMaker」を提案するものです。
本論文は、動画から連続的な物体ごとの物理パラメータを推定する新たな課題「MOSIV」を提案し、幾何学的目標に基づく微分可能なシミュレータと新しい合成ベンチマークを用いて、既存手法を上回る精度とシミュレーション忠実度を実現するフレームワークを開発したことを報告しています。
本論文は、複数の視点にまたがる空間推論において、視点間の関係性を明示的に推論する「空間的思考連鎖」を中間ワークスペースとして構築し、これを基に質問に応答する二段階フレームワーク「ViewFusion」を提案し、MMSI-Bench において既存モデルを大幅に上回る精度を達成したことを報告しています。
この論文は、中間的な画像生成に依存せずテキストベースの構造化視覚表現を用いて多様な画像生成モデルと統合可能な新しいフレームワーク「StruVis」を提案し、推論に基づくテキストから画像への生成タスクの性能を大幅に向上させることを示しています。
この論文は、部分的な遮蔽に起因する位置コストの混同を解決し、遮蔽状態を分析する「Occlusion-Aware Module」やその情報を活用する「Occlusion-Aware Offset」および「Bias-Aware Momentum」を含む、トレーニング不要のプラグ&プレイ型マルチオブジェクト追跡フレームワーク「OA-SORT」を提案し、複数のデータセットで追跡性能の向上を実証したものです。
この論文は、生体視覚に着想を得た高次元ハイパーカラムの計算コスト課題を解決するため、VGG16 ベースのハイパーカラムに層化サンプリングを適用し、脳腫瘍データセットでの実験により、特に少量データ(N≤20)の条件下で単純なロジスティック回帰が過学習しやすい標準的な UNet よりも統計的に有意に優れたセグメンテーション性能を示すことを明らかにしています。
この論文は、フォントスタイルと使用ケースを明示的に記述した大規模な注釈付きデータセット「FontUse」を構築し、既存の画像生成モデルをアーキテクチャ変更なしで微調整することで、提示されたテキストの視覚的スタイルと用途を高精度に反映させるデータ中心のアプローチを提案しています。
本論文は、統一マルチモーダルモデルが自らの理解能力を生成評価に活用する「GvU」というトークンレベルの内在的報酬メカニズムと自己教師あり強化学習フレームワークを提案し、理解と生成の能力格差を解消して両者の性能を相互に向上させる手法を提示しています。
本論文は、事前学習済み動画生成モデルに、参照オブジェクト情報を時間的に均等かつ空間的に選択的に注入する軽量拡張手法「GenHOI」を提案し、これにより野外の複雑なシーンにおいても物体の同一性を維持しつつ物理的に妥当な手と物体の相互作用を生成する能力を大幅に向上させることを示しています。
この論文は、自律走行 VLA モデルにおける探索の欠如という課題を解決するため、実行可能軌道の拡張と多様性を意識したサンプリング・報酬設計を組み合わせたフレームワーク「Curious-VLA」を提案し、Navsim ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、自動運転における軽量ビジョン・ランゲージモデルの失敗要因を解明するため、中間活性化を分析し、物体の存在は線形的に符号化されるが向きなどの空間概念は暗黙的であり、さらに距離の増加が概念の線形分離性を低下させることで、知覚的失敗と認知的失敗という 2 つの失敗モードを特定したことを示しています。
この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。
本論文は、ロボティクスや自動運転で収集された既存の全方向 RGB-LiDAR ログを、歪み補正や効率的なサンプリング、マルチモーダル登録などの処理を経て 3D ガウススプラッティング(3DGS)の初期化資産へと変換し、高品質なデジタルツイン構築を可能にするパイプラインを提案するものです。