Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。
4147 件の論文
この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。
本論文は、胸部 X 線レポート生成の評価において、診断の正確性や患者の安全性を重視し、臨床的コンテキストやガイドラインに基づいてエラーの重大度を重み付けする新しいメトリクス「CRIMSON」を提案し、複数のベンチマークで専門医の判断と高い一致を示したことを報告しています。
この論文は、組織画像と空間トランスクリプトミクスデータを深層学習で融合し、異なるサンプルやプラットフォーム間でも高精度にがん領域を検出する転移学習ベースの手法「SpaCRD」を提案し、23 のデータセットを用いた検証で既存の最先端手法を上回る性能を実証したものである。
複雑な反射の除去において、不正確な言語入力の悪影響を軽減しつつ言語と視覚特徴の整合性を高める適応的言語認識ネットワーク「ALANet」を提案し、新たに作成した CRLAV データセットによる実験で最先端の性能を達成したことを示しています。
この論文は、フレームレベルの注記を必要とする従来の完全教師あり手法の課題を解決するため、各動作セグメントに単一のフレームのみをラベル付けするポイント教師ありフレームワークを提案し、マルチモーダル骨格データと擬似ラベル生成技術を活用して、注記コストを大幅に削減しながらも完全教師あり手法に匹敵する、あるいは凌駕する動作セグメント性能を達成することを示しています。
この論文は、ビジョン基盤モデル(VFM)から得られる強力な幾何学的事前知識を階層的幾何特徴アダプターを通じて注入し、3D ガウススプラッティングの精度を大幅に向上させる新しい「VG3S」と呼ばれるセマンティック占有予測フレームワークを提案しています。
この論文は、階層的事象グラフ(HEG)に基づく「事象の連鎖(Chain-of-Events)」を導きとして、ドメイン固有の教師データなしに動画、テキスト、画像を統合的に理解し、最先端の手法を上回る精度でマルチモーダル要約を実現するトレーニングフリーのフレームワーク「CoE」を提案するものです。
本論文は、3D ガウシアンスプラッティングにおいて、共分散行列の固有値から算出される固有エントロピーを用いて局所構造の秩序度を評価し、低秩序領域を優先的に増密・高秩序領域を剪定する「EntON」という幾何学的に正確かつ高品質な 3D 再構成を実現する新たな適応的増密戦略を提案し、幾何精度とレンダリング品質の向上、およびガウス数と訓練時間の削減を同時に達成することを示しています。
この論文は、従来の時間的偽造局所化手法が抱える特徴量の粒度の不一致や計算コストの高さといった課題を解決するため、連続的な局所化から単語レベルの二値分類へとパラダイムを転換し、事前学習済み基盤モデルを有効活用する「単語アンカー型時間的偽造局所化(WAFL)」を提案し、高い精度と計算効率を両立させたことを示しています。
イベントカメラの空間的スパース性を活用して状態レベルのスパース性と並列学習を両立させる「Spatially-Sparse Linear Attention (SSLA)」を提案し、これに基づく非同期モデル「SSLA-Det」がイベントベースの物体検出において最先端の精度を達成しつつ、従来手法に比べてイベントあたりの計算量を 20 倍以上削減することに成功した。
本論文は、自動運転における可変長の観測履歴に対応し、過去情報の明示的な補完と段階的知識蒸留を統合した「TaPD」フレームワークを提案し、特に短い観測データにおいても高精度な軌道予測を実現するものです。
本論文は、タスクベクトルのエネルギー分布の偏りと幾何学的な不一致という課題を解決し、特異値の平滑化と共通直交部分空間への射影を通じて方向的一貫性を確保する「DC-Merge」というモデル統合手法を提案し、視覚および視覚言語ベンチマークにおいて全ファインチューニングと LoRA 設定の両方で最先端の性能を達成することを示しています。
本論文は、2D セマンティック特徴と 3D 幾何学的特徴を階層的に分解・協調的に融合するマルチモーダルフレームワーク「HCF-RES」を提案し、ScanRefer および Multi3DRefer 両ベンチマークで最先端の性能を達成する 3D 参照表現セグメンテーション手法を確立したものである。
本論文は、大規模言語モデルの自己回帰能力を活用して物理的運動と深層的な言語的推論を統合し、未知の物体を含む複雑な環境における 3D 多物体追跡の性能を飛躍的に向上させる「NOVA」という新たなアプローチを提案しています。
本論文は、冻结されたビジョン基盤モデルから視線目標に関連する手がかりを混合エキスパート(MoE)モジュールを通じて選択的に活用し、クラス不均衡を克服しながらロボットが人間の注目を理解するための最先端性能を達成するエンドツーエンドのフレームワーク「GazeMoE」を提案するものです。
本論文は、移動キャリアに搭載可能なリアルタイム無人機検知システム「ODD-SEC」を提案し、360 度視野を持つ回転型イベントカメラと運動補正を不要とする新規イベント表現、軽量ニューラルネットワークを組み合わせることで、悪条件下でも高精度な無人機の検出と方位推定を実現したものである。
本論文は、視覚言語モデルの剪定をマルチ目的の条件付きリソース配分問題として定式化し、視覚感度シグナルと多目的 GRPO を活用して、ハルシネーション耐性とタスク性能のバランスを制御可能な階層的剪定フレームワーク「HiPP-Prune」を提案するものである。
Diffusion Transformer の実世界画像超解像における計算コストとアーティファクトの問題を解決するため、軌道正規化とスペクトル正規化を組み合わせた新規のワンステップ蒸留フレームワーク「StrSR」を提案し、最先端の性能を達成した論文です。
本論文は、3D 意味的占有予測におけるラベルノイズ問題に対処するため、初のベンチマーク OccNL を構築し、二重ソースの部分的ラベル推論を用いた頑健なフレームワーク DPR-Occ を提案することで、極端なノイズ下でも安全なロボティクス知覚を実現する手法を提示しています。
この論文は、クラスレベルの属性とインスタンスレベルの視覚的特徴のギャップ、および意味と視覚の分布の不一致という生成ゼロショット学習の課題を解決するため、属性分布をモデル化し視覚に誘導された意味-視覚アライメントを行う「ADiVA」という手法を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。