BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation
本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット({-1,0,1})のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。
10069 件の論文
本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット({-1,0,1})のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。
本論文は、自己教師あり学習により関節物体の幾何学と運動学を連続的に変形可能なガウススプラッティングで統合的にモデル化する「PD²GS」を提案し、その実世界評価用のデータセット「RS-Art」も公開することで、既存手法を上回る精度と連続制御の安定性を実現したことを述べています。
本論文は、メタ学習された自己教師あり損失を用いたテスト時適応により、視覚言語モデルの汎化能力と時間的推論を強化し、ゼロショット価値関数として実世界ロボット操作やオフライン強化学習において最先端の性能を達成する「VITA」を提案するものである。
本論文は、動画データから直接学習可能なスケーラブルな手法を提案し、ブロック因果拡散トランスフォーマーを用いて文脈に応じた画像編集を実現する「VINCIE」を開発し、既存の手法を上回る性能と多様な応用能力を実証したものです。
学習ベースの画像圧縮(NIC)の堅牢性評価の欠如を填补するため、本論文は、多様な攻撃と防御策、標準的なレート歪み指標、および下流タスクへの影響評価を含む包括的なオープンソースベンチマーク「NIC-RobustBench」を提案し、NIC 手法の敵対的攻撃に対する脆弱性と回復力に関する広範な実証研究を行っています。
この論文は、FSCIL における知識の衝突を解決するため、海馬の連想記憶に着想を得たプロトタイプ較正と動的構造整合を組み合わせた「ConCM」フレームワークを提案し、大規模ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、テキストと視覚情報の不一致が既存の視覚トークン削減手法の限界をもたらすことを指摘し、テキストに依存せず視覚情報のみでトークンを選択・統合するトレーニング不要なフレームワーク「VisionDrop」を提案することで、推論コストを大幅に削減しつつ高精度を維持することを可能にしました。
本論文は、13 億パラメータという小規模なモデルで、多様なタスクとモダリティを統合的に処理し、高速かつ高品質な人間アニメーションを実現する効率的なフレームワーク「EchoMimicV3」を提案するものである。
本論文は、複数の視点からの画像を圧縮された光場トークン(CLiFT)として表現し、計算リソースに応じてトークン数を動的に調整することで、高品質なニューラルレンダリングを効率的に実現する手法を提案しています。
この論文は、大規模視覚言語モデルを活用して高レベルな概念表現を段階的に構築する「Segment Concept (SeC)」フレームワークと、複雑な意味理解を要する新たなベンチマーク「SeCVOS」を提案し、既存の最先端手法を大幅に上回る性能で複雑なビデオ物体セグメンテーションを実現したことを報告しています。
本論文は、スタンフォード大学のロボット試験施設と高速シミュレーション環境を組み合わせたハイブリッド・ツインフレームワークを提案し、宇宙機の接近・編隊飛行におけるガイダンス・航法・制御(GNC)システムの信頼性を、ソフトウェアおよびハードウェア・イン・ザ・ループの両面から検証・評価する手法を示しています。
本論文は、Panoptic Studio や Ego-Exo4D などのデータセットを用いた実験により、少数のスパースな視点からの動画から動的なシーンを再構築する手法「MonoFusion」を提案し、従来の密な多視点手法が苦手とする限定的な視点重なり下でも、各単眼再構築を整合させることで高品質な動的シーン再構築と新規視点レンダリングを実現することを示しています。
本論文は、多変量時系列データの複雑な相互依存関係を捉えるために階層的ハイパーグラフとトランスフォーマーを統合した「HGTS-Former」を提案し、核融合におけるエッジ局所モード(ELM)の認識を含む多様なタスクで最先端の性能を達成したことを報告しています。
本論文は、複数のアイソクロマットを共通の特性に基づいてグループ化し、グループ内で計算を共有する「結合更新法」を提案することで、従来の MRI シミュレーションに比べて 3 倍から 72 倍の高速化を実現したことを報告しています。
この論文は、介入を視覚シーンに依存しない因果的デルタ埋め込みとして表現することで、追加の教師信号なしに画像ペアから因果表現を学習し、分布外(OOD)の頑健性を大幅に向上させる手法を提案しています。
この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
本論文は、視覚言語モデルに基づく意思決定と運転世界モデルに基づく未来シナリオ生成を統合し、生成された想像されたシナリオを用いて計画を反復的に最適化する新たな自律運転フレームワーク「ImagiDrive」を提案し、nuScenes および NAVSIM データセットにおける広範な実験でその有効性を実証したものである。
本論文は、映画のような多ショット動画生成とシームレスな転移を実現するため、大規模なデータセット「Cine250K」を構築し、拡散モデルの注意マップに基づいたマスク制御メカニズムを導入した新しいフレームワーク「CineTrans」を提案するものである。
この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。
画像を空間解像度は同じだがトークン数が異なる構造列に分解し、空の画像からグローバルなレイアウトへと細部を段階的に生成する「Next Visual Granularity (NVG)」フレームワークを提案し、ImageNet における FID スコアの向上と明確なスケーリング挙動を実証した。