Training-free Motion Factorization for Compositional Video Generation
この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。
4495 件の論文
この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。
本論文は、現実世界で頻繁に発生するモダリティの欠損やノイズに対処するため、信頼性推定とプログレッシブな相互作用により不完全なマルチモーダル感情分析を高度化する「PRLF」という新しいフレームワークを提案し、主要なデータセットにおいて最先端の性能を達成したことを報告しています。
本論文は、合意プロトコルとストレージエンジン間の重複する永続化操作による I/O オーバーヘッドを解消するため、キー・バリュー分離と Raft を最適化して統合し、Put/Get/Scan 操作で大幅なスループット向上を実現した分散キーバリューストア「Nezha」を提案するものである。
この論文は、視覚的偽情報の検証において逆画像検索が事実確認コンテンツよりも誤情報や無関係な結果を優先的に表示するアルゴリズム的ゲートキーピングとして機能し、特に偽情報が出現直後の「データ・ボイド」期にその質が低下することを示しています。
本論文は、LLM 駆動のマルチエージェントシステムが企業環境に導入される際に生じる新たな攻撃面を特定し、ツール編成とメモリ管理を主要な信頼境界として定義する「AgenticCyOps」フレームワークを提案し、SOC ワークフローへの適用を通じて攻撃経路の大部分を遮断し、信頼境界を 72% 以上削減する効果を実証しています。
本論文は、SegFormer 変換器を用いて HR-pQCT 画像から骨および周囲軟組織を自動セグメント化し、抽出した放射線学的特徴量を用いた骨粗鬆症の分類が、従来の骨ベースのモデルよりも高い精度を達成し、軟組織の評価が疾患検出に重要であることを示した研究です。
本論文は、画像の回転に対する不変性を欠く既存のビジョン用 Mamba アーキテクチャの課題を解決するため、回転等変性を組み込んだ初のモデル「EQ-VMamba」を提案し、理論的な等変性の保証と、分類・セグメンテーション・超解像などの多様なタスクにおける高い性能とパラメータ効率の向上を実証しています。
本論文は、6G ネットワークにおける分散学習の課題を解決するため、ネットワーク状態を認識してタスク目標を行動に変換する「エージェント型 AI」を制御層として導入し、クライアント選定やリソース割り当てなどの最適化を自律的に行う統合システムを提案し、その有効性を示したものである。
この論文は、重み付き三角形フリー 2 一致問題(WTF2M)に対して、単純な局所探索アルゴリズムと非自明な解析に基づき、任意の定数に対して多項式時間-近似アルゴリズム(PTAS)を提案するものである。
本論文は、6 本から 16 本までの任意の脚数を持つ多脚ロボットが、段差のある複雑な地形を走行するための、機械学習モデルや CPG に代わる軽量かつ適応性の高い制御アーキテクチャを提案し、シミュレーションでその有効性を検証したものである。
この論文は、オンラインソーシャルネットワークにおける情報拡散の複雑な時空間ダイナミクスを捉え、既存手法の限界を克服するために、双方向ジャンプ ODE とアテンション機構、変分ニューラル ODE を組み合わせて情報流行度を予測する新しい手法「VNOIP」を提案し、実データを用いた実験でその高精度と効率性を実証したものである。
この論文は、低照度環境における RGB-T セマンティックセグメンテーションのロバスト性を向上させるため、融合とモダリティ適応を単一のネットワークで統合し、欠損信号に対しても頑健な推論を可能にする「RTFDNet」という新しいアーキテクチャを提案しています。
この論文は、420 万件の占有アノテーションを含む大規模データセットを用いたマルチタスク共同学習により、単一の空間トークンを通じて 3D 空間認識を統合し、多様なシナリオやタスクにおいて最先端の性能と実世界での堅牢性を達成するエンドツーエンドの基盤モデル「SPAN-Nav」を提案するものである。
この論文は、Bernardini らの PODS'25 における既存手法の空間・時間計算量の課題を克服し、近似的に最適な誤差を保ちながら、頻出部分文字列マイニングを微分プライバシー条件下で の空間と の時間で実現する新しいアルゴリズムを提案するものである。
この論文は、Rényi 差分プライバシーの枠組みにおいて、各ユーザーが単一のパーティションを提出する場合の最適アルゴリズムを一般化し、複数のパーティションを提出する場合や頻度解放を伴う場合における最適性の限界と、既存のパーティション選択アルゴリズムに対する実用的な改善手法を提示するものである。
画像復元において、Mamba モデルが抱える空間トポロジーの破綻と長距離依存性の減衰という課題を解決するため、幾何学的分割と対称なショートカット経路を導入した階層的状態空間モデル「Progressive Split-Mamba」を提案し、超解像やノイズ除去などのタスクで既存モデルを上回る性能を示した。
本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。
本論文は、オフロードロボットナビゲーション向けに、自動アノテーションパイプラインにより生成された大規模なマルチモーダル(LiDAR、カメラ、レーダー)サーラウンドビュー 3D 通過性データセット「STONE」と、そのベンチマークを提案するものである。
本論文は、大規模言語モデル(LLM)を用いたインデックス調整が、Microsoft のデータベース調整アシスタント(DTA)よりも優れた実行時間を達成する可能性を示す一方で、その性能のばらつきや実運用への統合の難しさから、現状では補完的な技術として位置づけられるべきであることを、ベンチマークおよび実企業ワークロードを用いた評価を通じて明らかにしています。
この論文は、SGP による対戦相手の行動予測と動的占有廊下の構築、およびカスタム擬似過渡継続ソルバーを用いた高速 LTV-MPC による厳密な運動学制約の保証を通じて、F1TENTH プラットフォーム上で最先端の手法を大幅に上回る高速度・高安全性のマルチエージェント自動レーシングを実現する「トポロジカルギャップ識別と加速 MPC」フレームワークを提案するものである。