HECTOR: Hybrid Editable Compositional Object References for Video Generation
本論文は、静止画や動画のハイブリッド参照と各要素の軌跡指定を可能にする「HECTOR」という生成パイプラインを提案し、複雑な時空間制約を満たしつつ高品質で参照に忠実な動画生成を実現するものである。
3462 件の論文
本論文は、静止画や動画のハイブリッド参照と各要素の軌跡指定を可能にする「HECTOR」という生成パイプラインを提案し、複雑な時空間制約を満たしつつ高品質で参照に忠実な動画生成を実現するものである。
この論文は、スマートメーターなどのセンサーネットワークデータにおけるプライバシー保護を目的として、中央集権的な信頼を最小化し、軽量な協調と確率的な計数構造を用いて分散型で z-匿名性を実現する「deZent」という新しいアプローチを提案し、その中央集権型との同等のパフォーマンスと通信オーバーヘッドの削減を実証しています。
本論文は、スパース同定法(SINDy)と再帰最小二乗法(RLS)適応制御を統合した「Adaptive SINDy」を提案し、乱流環境下でのドローン外乱拒絶と軌道追跡精度の向上を実機実験で実証したものである。
この論文は、SQL と AI/ML を組み合わせたハイブリッドクエリ向けの最適化手法を、DuckDB ベースの統合バックエンドとインタラクティブな Web インターフェースを通じて公平かつ透明性高く構築・比較・可視化することを可能にする「OptBench」という対話型ワークベンチを提案するものである。
この論文は、2〜4 歳の幼児 26 名を対象とした遊びベースの研究を通じて、嗅覚・触覚・感情の間の有意な対応関係と、それらを結びつける認知戦略を実証的に明らかにし、幼児の感覚入力に即したデザイン指針と再現可能な研究方法を提供するものである。
本論文は、点集合間のハウスドルフ距離の最小化問題において、次元数、対称性(有向・無向)、および連続・離散の区別が計算複雑性に及ぼす影響を、微細な複雑性理論を用いて体系的に分析し、特に次元や入力サイズ比に応じた非対称な時間計算量や、3SUM 仮説との関係など、新たな理論的限界とアルゴリズムを明らかにしたものである。
この論文は、計算リソースの集中やエネルギー消費などの課題に対処するため、個人インスタンスが生成する合成データと「集合的コンテキスト場(CCF)」を介した文脈信号の同期によって、プライバシーを保護しつつ持続可能な分散型 AI 学習を実現する「H3LIX 分散型フロンティアモデルアーキテクチャ」を提案しています。
この論文は、生成 AI を活用したグループ意識ツール(GATs)の設計を通じて、協働学習における自律的な社会的共有メタ認知(SSM)を促進するための初期の設計原則を提案し、議論を呼びかけるものである。
本論文は、CARLA 環境における物理的パッチ攻撃を用いたブラックボックス評価により、Dolphins、OmniDrive、LeapVAD という 3 つの VLM 型自律運転アーキテクチャがすべて深刻な脆弱性を有し、安全性を脅かす多フレームにわたる失敗や物体検出の劣化を引き起こすことを明らかにしています。
本論文では、外部の視覚的クエリに基づいて未編集動画内の対象物をピクセルレベルで全て検出する新たなタスク「視覚的クエリセグメンテーション(VQS)」を提案し、そのための大規模ベンチマーク「VQS-4K」と、SAM 2 を拡張した高性能な手法「VQ-SAM」を併せて紹介しています。
この論文は、生成 AI による過剰依存を招く明示的指示の代わりに、グループ間の認知葛藤を促す視覚化による暗黙的ガイダンスを提供する「グループ意識ツール(GATs)」を生成 AI と統合し、自律的な意味形成を支援するための設計指針を提案するものである。
この論文は、視覚などの遠隔センシングでは検知が困難な変形性砂地環境において、脚と地面の接触情報(固有受容感覚)のみを用いて安全な領域を推定・認証し、多目的最適化による探索戦略を統合した「PSANE」と呼ばれる自律移動・探査フレームワークを提案し、未知の環境での安全な目標到達を実現するものです。
この論文は、インフラに依存せず、軽量な無人航空機(UAV)が磁気誘導を用いて移動する四足歩行ロボット(UGV)に対して、センチメートル単位の精度で自律的にホバリング、追跡、着陸を可能にする完全なローカライゼーションシステムを提案し、実世界の実験でその有効性を検証したものである。
本論文は、大規模マルチモーダルモデルの推論能力を活用し、高圧環境における微表情の理解と時空的推論を評価する新たなタスク(ME-VQA および ME-LVQA)を含む「2026 年微表情グランドチャレンジ(MEGC2026)」を提案するものである。
本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。
この論文は、整数および浮動小数点数に対して、バイナリクイックソートに由来する手法を統合し、要素の語長 に対して の実行時間と の補助空間で動作する「bsort」という非比較ソートアルゴリズムを提案し、特に語長が小さいデータ型において既存の高度に最適化されたハイブリッドアルゴリズムと競合する性能を示すことを述べています。
この論文は、敵対的順序ではなく一様ランダム順序で入力される単位区間選択問題において、最適解のサイズに比例する空間で$0.74018/9\Omega(n)$の空間が必要であることを示しています。
この論文は、生成 AI がソフトウェア工学における質的研究の万能薬ではないことを示し、その活用における可能性と課題を慎重に検討し、研究者に対して生成 AI 支援の質的研究の恩恵と落とし穴について理解を深めるよう促しています。
本論文は、外部からの手への力を推定して潜在コンテキストに条件付ける強化学習フレームワーク「FAME」を提案し、これにより力/トルクセンサーなしで二足歩行ヒューマノイドの把持操作範囲を拡大し、外乱に対するバランス維持能力を大幅に向上させることを示しています。
本論文は、公共教育における言語学習への VR・AR 導入の機会と課題(動機付けの向上や文脈学習の促進といった利点と、技術的障壁や認知的負荷などの課題)を 2 つの実証研究に基づいて分析し、効果的な導入に向けた具体的な戦略を提案しています。