Geometric Autoencoder for Diffusion Models
この論文は、視覚基盤モデルの事前知識とラテン正規化、動的ノイズサンプリングを組み合わせた「幾何学的オートエンコーダ(GAE)」を提案し、ImageNet-1K における高品質な拡散モデル生成と、圧縮・セマンティクス・再構成安定性の優れたバランスを実現したことを報告しています。
5308 件の論文
この論文は、視覚基盤モデルの事前知識とラテン正規化、動的ノイズサンプリングを組み合わせた「幾何学的オートエンコーダ(GAE)」を提案し、ImageNet-1K における高品質な拡散モデル生成と、圧縮・セマンティクス・再構成安定性の優れたバランスを実現したことを報告しています。
この論文は、2D 視覚手がかりが不十分とモデル自身が判断した際にのみ幾何学的特徴を自律的に活用する「GeoSense」というフレームワークを提案し、計算オーバーヘッドを増やさずに多モーダル推論の空間理解能力を大幅に向上させる手法を提示しています。
本論文は、大規模株式データにおける条件付き拡散モデルを用いた資産収益率予測とポートフォリオ構築において、条件付けるファクターの次元数が過少だと過小適合し多すぎると過剰適合するバイアス・バリアンスのトレードオフが存在し、中間的な次元数が最適な汎化性能とベースライン戦略を上回る成果をもたらすことを実証しています。
この論文は、ネイティブのセキュリティ制約が欠如しているオープンソースのコードエージェント「OpenClaw」の脆弱性を分析し、MITRE ATLAS/ATT&CKに基づく攻撃に対して防御率が17%しかないと指摘した上で、人間が介入する防御層(HITL)を導入することで防御率を最大92%まで向上させる有効性を示しています。
この論文は、NASA の NOS3 環境を用いた実証を通じて、衛星のサプライチェーンに組み込まれた悪意のあるコンポーネントが地上からの攻撃とは異なり、内部からテレメトリを偽装してミッション全体を危険にさらす新たな脅威を明らかにし、その対策を論じています。
本論文は、 Occupancy Grid Mapping と拡散方策(Diffusion Policy)を組み合わせることで、未知の物体やセンサーノイズに対して頑健かつ効率的な 3D スキャンを実現する新しいフレームワーク「ScanDP」を提案しています。
本論文は、対面グループディスカッションにおいて、スマートフォンの動きを表現的に制御する「AnimaStand」を開発し、受動的なメンバーの再参加を促してグループダイナミクスやタスク遂行を向上させることを実証した研究です。
この論文は、既存の指標が低信頼度の誤検出を軽視する課題を解決するため、推定ポーズと注釈ポーズを最適輸送問題として扱い、信頼度スコアをマッチング精度の向上に活用しながら真陽性と偽陽性のトレードオフを公平に評価する新たな指標「OCpose」を提案するものである。
本研究は、可撓性メカニズムの不安定性に対処するため、階層的な空間結合を捉え、運動学的知識と学習ベースの制御を適応的に融合するハイブリッド手法「SpatioCoupledNet」を提案し、実験により従来手法よりも大幅に誤差を低減し、動的な障害物回避タスクにおける高い精度とロバスト性を実証したものである。
この論文は、自律移動における安全な計画を実現するために、カーネル密度推定とカイ二乗分布の整合性を活用した新しい損失関数を提案し、ガウス分布に基づく軌道予測モデルの予測不確実性を較正することで、信頼性の高い確率的洞察を提供し、複雑な環境下での衝突回避性能を向上させることを示しています。
本論文は、複雑な物理現象を含む動画生成において視覚的品質、物理的整合性、制御性を両立させるため、物理推論と視覚合成を「点・形状・外観」の階層構造で分離し、物理法則の学習を促す「Motion Forcing」という新たなフレームワークを提案するものである。
この論文は、離散インデックスの微分不可能性と流行バイアスによる幾何学的な不整合という 2 つの課題を解決するため、Gumbel-Softmax と対称重み共有による最適化の統一、および単位超球面上のスケーリングされたコサイン類似度による幾何学的最適化を導入した「微分可能な幾何学的インデックス(DGI)」を提案し、大規模検索および電子商取引データセットにおいて既存手法を上回る性能、特にロングテールシナリオでの堅牢性を示しています。
この論文は、自己教師あり動画ノイズ除去において、ブラインドな時間的整合性の学習と非ブラインドな空間的テクスチャ復元を明確に分離する「Frames2Residual(F2R)」というフレームワークを提案し、既存手法の課題を解決して性能を向上させることを示しています。
本論文は、拡散 MRI 線維路追跡の登録とクラスタリングという 2 つのタスクを、共有潜在埋め込み空間と確率的推論を用いた単一の最適化枠組み「TractoRC」で統合的に学習し、相互補完的な情報活用によって両タスクの性能を大幅に向上させることを提案しています。
本論文は、ピクセル依存を減らしタスク長に柔軟に対応するスキル合成型世界モデルを導入することで、視覚言語動作(VLA)ポリシーの汎化性能を大幅に向上させるポストトレーニングフレームワーク「World2Act」を提案し、実世界での成功率向上を実証したものである。
本論文は、有界次数および有界ツリー長を持つグラフにおいて、最短経路距離を返すオラクルを用いた辺の再構成問題を、決定論的アルゴリズムで クエリで解決し、既存の最良のアルゴリズムを 因子だけ改善するとともに、有界弦性グラフに対する既知の下限と一致することを示しています。
本論文は、リソース制約のあるマルチロボットシステムにおいて、オフラインおよびオンライン強化学習を組み合わせるハイブリッド戦略「COHORT」を提案し、大規模 DNN の推論を効率的に分散実行することで、バッテリー消費の削減と GPU 利用率の向上、およびリアルタイム制約の厳守を実現したことを報告しています。
この論文は、極端な遅延や高損失、頻繁な切断といった宇宙環境の課題に対処するため、暗号化フローの接続分割を可能にする「非透過型セキュアプロキシ(NTSP)」アーキテクチャに基づき、帯域幅の安定利用と低遅延の誤り訂正を組み合わせた新しいセキュアな転送加速戦略「PEPspace」を提案し、地球 - 月間のシナリオにおいて従来の TCP/QUIC や既存の性能向上プロキシを上回る高いスループットと安定性を実証したものである。
本論文は、基盤モデルと軽量モデルを非同期に協調させることでエッジデバイスでのリアルタイム推論を可能にし、パラメータ数を大幅に削減しながら高精度な単眼深度推定を実現する「AsyncMDE」を提案しています。
この論文は、言語モデルの意味的理解と拡散モデルの生成能力を統合し、構造化されたシーン表現からメタアクションを推論して事前軌道を作成し、それを拡散プロセスで物理的に妥当な軌道に洗練させる「KnowDiffuser」という新しい知識誘導型運動計画フレームワークを提案し、nuPlan ベンチマークにおいて既存の計画手法を上回る性能を実証したものである。