Kuramoto Orientation Diffusion Models
生物学的な同期現象に着想を得たクルモントモデルを拡散過程に応用し、指紋やテクスチャなどの方向性豊かな画像生成において、位相の同期と非同期を制御することで従来の等方性拡散モデルを超える性能を実現する新しい生成モデルを提案する。
1863 件の論文
生物学的な同期現象に着想を得たクルモントモデルを拡散過程に応用し、指紋やテクスチャなどの方向性豊かな画像生成において、位相の同期と非同期を制御することで従来の等方性拡散モデルを超える性能を実現する新しい生成モデルを提案する。
この論文は、人手に依存するサンゴの産卵計測の課題を解決し、大規模なサンゴ礁の修復を可能にするため、低コストなカメラと人間によるラベル付けを組み合わせた物体検出技術を用いて、サンゴの産卵と幼生を自動的に検出・分類・計数する「CSLICS」と呼ばれるシステムを提案し、その有効性を検証したものです。
この論文は、深層ビジョンネットワークにおける概念の符号化と復号を担う方向性ペアを、特徴再構成に依存しない教師なし手法で復元し、モデルの解釈性向上や誤り修正などの応用を可能にする新たなアプローチを提案するものである。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
本論文は、マルチモーダル多ターン対話における新たな安全リスクに対処するため、大規模な安全データセットと自動攻撃フレームワークを構築し、既存の手法を凌駕する包括的な対話安全監査システム「LLaVAShield」を提案するものである。
この論文は、1925 年から 1950 年にかけてのフランスの歴史的都市拡大を分析するため、古地図の複雑な特徴を処理する双段階の深層学習パイプラインを開発し、初の全国規模のオープンアクセス都市フットプリントデータセットを生成したことを報告しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、LiDAR 3D セマンティックセグメンテーションにおけるドメイン一般化と不完全ラベルという未解決課題に焦点を当て、既存手法の限界を克服し、信頼性に基づく双視点フレームワーク「DuNe」を提案することで、複数のデータセットにおいて最先端の性能を達成したことを報告しています。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。
既存のニューラル動画圧縮方式が抱える欠陥を克服するため、従来の動画符号化の概念を取り入れて単一モデルで適応的にイントラ・インター符号化を行う統合フレームワークと双方向二フレーム圧縮設計を提案し、DCVC-RT を上回る圧縮効率とリアルタイム性を両立させた研究です。
本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。
本論文は、軽量な身体ランドマーク検出と適切な部分集合の選択、およびスプライン補間による欠損値の補完を組み合わせることで、LIBRAS の孤立した手話認識において、既存の最先端手法と同等以上の精度を維持しつつ処理時間を 5 倍以上短縮できることを実証しています。
この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。
この論文は、事前学習済み Stable Diffusion モデルの特徴量を活用し、トレーニング不要な k-NN による検出とコンパクトな分類器によるソース特定を可能にする軽量かつデータ効率の高いフレームワーク「FRIDA」を提案し、GenImage ベンチマークにおいて未見の生成モデルに対する検出とソース特定において最先端の性能を達成したことを報告しています。
既存の単眼 3D 物体検出器が抱える属性間の幾何学的整合性の欠如を解消するため、予測された 3D 境界ボックスと正解との空間的整合性、および画像平面上での 3D ボックスの 2D 投影と検出枠との整合性を強制する「Spatial-Projection Alignment(SPAN)」手法を提案し、既存の検出器に容易に統合可能な形で性能を大幅に向上させることを実証した。
本論文は、医療教育における多輪対話と実体レベルの推論を可能にする新たなタスク「MEMR-Seg」と大規模データセット「MR-MedSeg」を提案し、誤差伝播を軽減する「判定・修正メカニズム」を備えた基線モデル「MediRound」を開発してその有効性を示したものである。
本論文は、追加学習を必要とせず推論時に高信頼かつ多様な特徴を蓄積する適応的多様性キャッシュ(ADC)モジュールを提案し、VLM ベースの人間 - 物体相互作用(HOI)検出における長尾分布の偏りを効果的に軽減し、特に希少カテゴリの検出性能を向上させることを示しています。
本論文は、大規模視覚言語モデル(LVLM)における既存の敵対的攻撃が抱える制御性の限界を、パッチ特徴の曖昧さではなく、より局所的で分離された意味情報を保持する「値特徴(Value Features)」を標的にすることで克服し、テキスト指示に基づく精密な意味操作を可能にする新しい手法「V-Attack」を提案するものである。
本論文は、異なる VLA モデルや実環境への転移が可能なユニバーサルな物理的パッチ攻撃「UPA-RFAS」を提案し、視覚 - 言語 - 行動モデルが未知のアーキテクチャやシミュレーションから実世界への移行においても普遍的な脆弱性を持つことを実証しています。