DAP: A Discrete-token Autoregressive Planner for Autonomous Driving
本論文は、BEV 语义と自車軌跡を同時に予測する離散トークン自己回帰モデル「DAP」を提案し、強化学習による微調整と合わせて、1.6 億パラメータというコンパクトな規模で自動運転の計画タスクにおいて最先端の性能を達成することを示しています。
4370 件の論文
本論文は、BEV 语义と自車軌跡を同時に予測する離散トークン自己回帰モデル「DAP」を提案し、強化学習による微調整と合わせて、1.6 億パラメータというコンパクトな規模で自動運転の計画タスクにおいて最先端の性能を達成することを示しています。
本論文は、臨床現場で頻繁に発生する MRI 画像モダリティの欠損問題に対処し、任意のモダリティ組み合わせに対して頑健かつ高精度な脳腫瘍セグメンテーションを実現するため、階層的モダリティ自己蒸留と段階的モダリティ組み合わせ蒸留を組み合わせた新しいクロスモーダル構成自己蒸留(CCSD)フレームワークを提案し、公開ベンチマークにおいて最先端の性能を達成したことを報告しています。
本論文は、マルチモーダル大規模言語モデルの推論オーバーヘッドを削減するため、周波数領域におけるエネルギー分布と外れ値 KV を考慮し、既存の効率的なアテンションカーネルと互換性のある新しい KV キャッシュ圧縮フレームワーク「FlashCache」を提案し、高いメモリ効率と高速なデコーディングを実現するものである。
本論文は、長距離依存関係のモデル化と線形計算量を実現する状態空間モデル「Mamba」の課題を克服し、対角マスク双方向状態空間モジュールとグローバル特徴融合ヘッドを導入したエンドツーエンドのワンステージ検出器「MambaTAD」を提案し、複数のベンチマークで優れた時間的動作検出性能を達成したことを示しています。
この論文は、腕に搭載されたカメラを移動させて最適な視点を確保し、3D ガウススプラッティングを用いて視覚的観測を最適化する「Observer-Actor」フレームワークを提案し、これによりロボットアームの模倣学習における成功率を大幅に向上させることを実証しています。
本論文は、単眼動画から高品質でアニメーション可能な 3D ヘッドアバターを再構築する STAvatar を提案し、UV 適応型ソフトバインディングと時間的密度制御戦略を通じて、既存手法の剛性や表現力の限界、および頻繁に隠れる領域の再現課題を解決し、最先端の性能を達成することを示しています。
本論文は、悪天候や長距離条件下でも信頼性の高いレーダーセンサの理解を目的として、構造化された空間言語教師信号を用いて統一されたシーン表現を学習するビジョン・言語モデル「RadarVLM」を提案し、その空間的推論能力の向上を実証したものである。
本論文は、画像領域とテキストフレーズの間の組合せ的意味を効率的に捉えるため、領域のべき集合と構文木を対照的に整合させる新しい事前学習フレームワーク「PowerCLIP」を提案し、計算コストを削減しながら最先端のゼロショット性能を実現することを示しています。
この論文は、敵対的制御による拡散サンプリングの品質劣化を経路空間の KL 発散として定式化し、生成スコアの接空間に敵対的勾配を射影することで分布を保持しつつ分類成功率を維持する新しい手法「DPAC」を提案し、理論的・実証的にその有効性を示したものです。
本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。
本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。
本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。
本論文は、大規模言語モデルと進化的探索戦略を活用し、人間の介入や追加学習なしに混合精度量子化のための最適な代理モデルを自動発見する「TAP」という新フレームワークを提案し、最先端の性能を達成したことを報告しています。
本論文は、屋外キャンパスを歩行する 80 人以上の歩行者の視線データを収集した大規模データセット「EgoCampus」と、その環境下での歩行者の視線を予測する新手法「EgoCampusNet」を提案し、実世界における注視予測研究への新たな基盤を提供するものである。
本論文は、従来の frontal 視野の制約を克服し、19 名のドライバーから収集した約 100 万フレームの 360 度データセット「DriverGaze360」と、セマンティックセグメンテーションを補助タスクとして取り入れた「DriverGaze360-Net」を提案し、広視野環境におけるドライバーの注視予測性能を大幅に向上させたことを報告しています。
本論文は、人間の認知科学に基づき視覚情報を動的に取得しながら論理的な思考単位(CRU)に分解する「ViRC」フレームワークと、これに対応する CRUX データセットおよび段階的な学習戦略を提案し、マルチモーダル数学推論タスクにおいて基盤モデルを大幅に上回る性能を達成したことを示しています。
本論文では、解剖学的入力から線量事前分布を予測し、ビーム幾何学情報に基づいて物理的に較正された強度変調放射線治療のフラウンシーマップを直接回帰するトランスフォーマー駆動のフレームワーク「FluenceFormer」を提案し、物理情報に基づく損失関数と多様なトランスフォーマーバックボーンを用いた評価により、既存の手法を上回る高精度な計画生成を実現したことを示しています。
本論文は、拡散モデルのサンプリング遅延を低次元多様体上の幾何学的洞察に基づき並列勾配評価で補正する「EPD-Solver」を提案し、大規模モデルの微調整ではなくソルバー空間内での効率的な強化学習により、低遅延かつ高品質な画像生成を実現する手法を提示しています。
本論文は、大規模な物理法則対応動画データセット「PhyVidGen-135K」の構築と、物理的整合性を保証する新しい最適化フレームワーク「PhyGDPO」を提案し、テキストから物理的に整合性の高い動画を生成する性能を大幅に向上させたことを示しています。
本論文は、3D 生成モデルの注意機構内でソースとターゲットの構造化潜在特徴を融合させる「MorphAny3D」という学習不要なフレームワークを提案し、カテゴリを超えた高品質で時間的に一貫した 3D モーフィングを実現するものです。