RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models
本論文は、ビジョン・言語・アクション(VLA)モデルの推論効率を維持しつつ 3 次元空間推論能力を向上させるため、ビジョン・トランスフォーマーのレジスタートークンを動作計画モジュールへ再活用する「RetoVLA」を提案し、実世界の実験で成功率を 17.1 ポイント向上させたことを示しています。
6350 件の論文
本論文は、ビジョン・言語・アクション(VLA)モデルの推論効率を維持しつつ 3 次元空間推論能力を向上させるため、ビジョン・トランスフォーマーのレジスタートークンを動作計画モジュールへ再活用する「RetoVLA」を提案し、実世界の実験で成功率を 17.1 ポイント向上させたことを示しています。
本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。
本論文は、GPS 非依存環境において、深層強化学習による胴体安定化と、視界制約下での有限時間収束を保証する制御戦略を組み合わせることで、複雑な地形(階段や急斜面)における UAV と四足歩行ロボットの自律ドッキングを実現するフレームワークを提案しています。
本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。
本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。
本論文は、ベイズ的説得理論に基づき大規模言語モデルの戦略的説得能力を評価・訓練するための体系的な枠組みを提案し、最先端モデルが高度な戦略を駆使して高い説得効果を示すこと、さらに強化学習により小規模モデルでも同様の成果が得られることを実証しています。
本論文は、外部力に対する可変なコンプライアンス動作と、その限界を超えた際の迅速な回復・安定化を、安全監視機能によって統合的に制御する強化学習フレームワーク「SAC-Loco」を提案し、四足歩行ロボットの安全性と柔軟性を両立させることを可能にします。
本論文は、ビジョン・ファウンデーションモデルを教師として活用し、セマンティックセグメンテーションと深度推定を同時に行う効率的なドメイン適応型マルチタスク学習フレームワーク「FAMDA」を提案し、合成から実世界への転移や昼夜間適応において最先端の性能と軽量性を両立させることを示しています。
本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。
本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。
本論文は、LLM ベースのマルチエージェント計画における適応性と効率性のトレードオフを解決するため、サブゴール意図に明示的に紐付いた「アクションチェーン」を基本単位として採用し、既存手法の 30〜40% のトークン消費で同等のタスク成功率を達成する新しいフレームワーク「ELHPlan」を提案しています。
本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。
本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。
この論文は、圏間の適切な双対性を用いて関手を稠密関手に関連付けるという統一的な圏論的アプローチを提案し、これにより論理や確率計算における重要なモノイドのコードシティー性に関する既存の複雑な証明を大幅に簡略化するとともに、フィルターモノイドや期待値モノイドなどに対する新規なコードシティー性表示を導出するものである。
この論文は、UWB とレーダー、IMU、車輪エンコーダなどの安価なセンサーを組み合わせ、非線形最適化およびポーズグラフ最適化を用いて、無人地上車と無人航空機間の相対位置を高精度に推定する新しいマルチロボットシステムを提案し、その有効性をシミュレーションと実世界データで実証するとともに、コードとデータを公開している。
本論文は、専門家の主観的評価や既存の自動評価手法の限界を克服し、転写や正常音声の参照を必要としない新しい教師なし手法「XPPG-PCA」を提案し、その臨床応用における頑健性と汎用性を示したものである。
この論文は、非ホロノミックロボットが動的な障害物に囲まれた環境で安全に移動できるよう、相対速度の角度だけでなく距離や速度の大きさも考慮して放物線状の安全領域を動的に調整する「動的放物線制御バリア関数(DPCBF)」を提案し、従来の衝突円錐法よりも制約が緩和され、高密度な環境でも制御問題の実行可能性と航行成功率を大幅に向上させることを実証しています。
本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。
本論文は、大規模自己教師あり学習モデル「w2v-BERT 2.0」を話者検証タスクに応用し、LoRA による効率的な微調整と知識蒸留に基づく構造化プルーニングを組み合わせることで、SOTA 性能を維持しつつモデルサイズを 80% 削減することに成功したことを報告しています。
本論文は、拡散モデルを用いた軌道最適化において、非線形等式制約(動的実現可能性)を明示的に満たすため、状態系列を直接生成し、逆拡散プロセスに勾配なしの射影メカニズムを組み込んだ「PAD-TRO」という新規アプローチを提案し、高密度障害物環境でのクアッドコプタの航法タスクにおいて、既存の最先端手法と比較して動的実現可能性エラーをゼロに抑え、成功率を約 4 倍向上させることを実証しています。