NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
本論文は、大規模データや推論注釈を必要とせず、難易度バイアスを軽減する新しい最適化手法「Dr. GRPO」を採用することで、既存の視覚言語行動モデルよりもはるかに少ないデータと計算コストで自動運転において競争力のある性能を達成する「NoRD」を提案しています。
7644 件の論文
本論文は、大規模データや推論注釈を必要とせず、難易度バイアスを軽減する新しい最適化手法「Dr. GRPO」を採用することで、既存の視覚言語行動モデルよりもはるかに少ないデータと計算コストで自動運転において競争力のある性能を達成する「NoRD」を提案しています。
本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、視覚的複雑さと推論の不確実性に基づいてサンプルを難易度別に再グループ化し、極端なサンプルによる標準偏差の歪みを防ぐ「難易度感知型グループ正規化(Durian)」を提案するものである。
この論文は、内視鏡環境における弱いテクスチャや光の反射といった課題に対処し、拡散モデルを用いて画像と疎な深度情報、深度勾配特徴を統合することで、内視鏡手術ロボットのナビゲーション精度を向上させる新しい深度補完手法「EndoDDC」を提案し、既存の最先端モデルを上回る性能を実証したものです。
本論文は、概念理解と空間定位の表現競合を解決するため、段階的なカリキュラム学習とプログレッシブ・リプレゼンテーション・ウィービング(PRW)モジュールを採用し、画像編集からカスタマイズ生成まで多様な条件付き画像生成タスクを統合的に実現する「CoLoGen」を提案するものです。
この論文は、協調的なマルチエージェント相互作用と同期された動画・行動データの収集を可能にする新たなデータシステムを開発し、段階的な学習パイプラインと「チェックポイント付き自己強制(Checkpointed Self Forcing)」手法を用いて、一貫したマルチビュー観測をシミュレートするマルチプレイヤー動画世界モデル「Solaris」を構築し、既存のベースラインを上回る性能を実証したものである。
この論文は、クエリ頻度パターンとクラスタ一貫性メトリクスを活用して計算リソースを動的に割り当てる適応型プリフィルタリング手法を提案し、ImageNet-1k における実験で、静的な nprobe 選択と比較して距離計算を 20.4% 削減しながら同等の再帰率を達成することを示しています。
本論文は、生物学的大規模言語モデルの静的な融合の限界を克服し、双方向 Mamba エンコーダを用いた状態空間アライメント手法「CrossLLM-Mamba」を提案することで、RNA-タンパク質、RNA-小分子、RNA-RNA 間の相互作用予測において最先端の性能を達成したことを示しています。
本研究は、基礎モデルの再学習を行わずに下流タスクのモデル訓練時に新しいロバスト性損失を導入することで、組織病理学における基礎モデルの技術的ばらつきへの感度を低減し、臨床実装に適した頑健で高精度な診断モデルの開発を可能にすることを示しています。
本論文は、モンテカルロ木探索とニューラルアーキテクチャ探索を組み合わせ、医療画像セグメンテーションの精度を維持しつつ検索効率とモデル軽量化を大幅に実現した「MNAS-Unet」を提案するものである。
本論文は、単一 UAV 動画からの動的 4 次元再構成における深度曖昧性と不安定な運動推定という課題を、モノクロ幾何学的リフティングと物理的制約(接地、直立安定性、軌道滑らかさ)を組み合わせた最適化により解決し、実世界データセットを含めて最先端の性能を実現する「AeroDGS」を提案するものである。
本論文は、手動セグメンテーションを不要としながら、臓器に焦点を当てたアテンション損失関数(OFA)を用いた深層学習フレームワークを開発することで、腎腫瘍の悪性度を従来手法よりも高精度に予測し、臨床意思決定を支援する新しいアプローチを提案しています。
本論文は、ViT が背景パッチに依存する「怠惰な集約」行動によってアーティファクトが発生するメカニズムを解明し、CLS トークンへのパッチ特徴の選択的統合により、多様な教師あり・自己教師あり学習タスクにおいてアーティファクトを低減し性能を向上させる手法を提案しています。
本研究は、1 次元の SELFIES 配列、2 次元の分子グラフ、3 次元のコンフォーマー集合をクロスアテンションで統合し、実験的コンテキストを FiLM で条件付けることで、分子物性予測の精度を大幅に向上させるマルチモーダルモデル「MolFM-Lite」を提案し、その有効性を包括的な評価とオープンソース化によって実証したものである。
本論文は、マルチモーダル大規模言語モデルが画像内のテキストを真に「読んでいる」か否かを検証し、テキスト提示に依存する「モダリティの怠惰」を発見した上で、学習サンプルを画像上にテキストを可視化して提示する「SimpleOCR」という構造制約付きのトレーニング戦略を提案し、アーキテクチャ変更なしに分布外タスクでの性能を大幅に向上させることを示しています。
本論文は、プライバシーと遅延の懸念を解消するため、ストリーミング制約下で非同期スレッドを用いてビデオを軽量テキストに変換し、エッジデバイス上でリアルタイムにエピソード記憶に基づく質問応答を実現するマルチモーダル大規模言語モデルの手法を提案し、クラウドベースのソリューションと競合する精度と応答速度を達成したことを示しています。
本論文は、プライバシーと再現性を確保しつつ、オープンソースの視覚言語モデルと局所的な検索拡張生成(RAG)を活用して、マンモグラフィーのレポート生成および多タスク分類を可能にする拡張可能なローカルパイプライン「MammoWise」を提案し、その有効性を検証したものである。
本論文は、住宅間取り生成において事前学習モデルが軽視しがちな公共空間の支配性や機能的階層性を、空間構文の知識を非微分可能なオラクルを通じて明示的に注入する「SSPT」という事後学習パラダイムを提案し、PPO による強化学習戦略が計算効率と性能の両面で優れていることを示しています。
この論文は、自己教師あり学習による視覚辞書の学習と意味分解を組み合わせて、参照画像と自然言語による編集指示から意図を正確に反映しつつ多様性のある画像を検索する新しいコンポーズ画像検索手法「Pix2Key」を提案し、DFMM-Compose ベンチマークで既存手法を上回る性能を示したことを報告しています。
本論文は、低線量 CBCT 画像のノイズ除去とエッジ保持を両立させるため、ハイブリッド注意機構と残差学習を組み合わせた「HARU-Net」を提案し、既存の最先端手法を性能と計算コストの面で上回る結果を得たことを報告しています。
この論文は、T1 強調 MRI と FLAIR MRI から Tau-PET を合成し、各モダリティの寄与を可視化することでアルツハイマー病の病態解析を可能にする、部分情報分解に基づくベクトル量子化エンコーダと構造エッジ条件付き Half-UNet デコーダを組み合わせた「DisQ-HNet」という新しいフレームワークを提案するものです。