Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction
オフロード環境における道路ネットワーク抽出の課題を解決するため、大規模なオフロードデータセット「WildRoad」を公開し、従来のノード中心アプローチの限界を克服する経路中心のフレームワーク「MaGRoad」を提案し、高い精度と高速推論を実現する研究です。
3635 件の論文
オフロード環境における道路ネットワーク抽出の課題を解決するため、大規模なオフロードデータセット「WildRoad」を公開し、従来のノード中心アプローチの限界を克服する経路中心のフレームワーク「MaGRoad」を提案し、高い精度と高速推論を実現する研究です。
制約されたリソースとデータ制約下で、ルールベースのマスク変形と GAN による画像変換を組み合わせる二段階のデータ拡張フレームワークを提案し、限られたデータ量でもマスク付き顔検出・認識タスクにおいて既存手法を上回る結果を示した研究です。
本論文は、スパースオートエンコーダと勾配ベースの可視化手法を統合し、深層学習モデルの内部特徴を「発見・検証・制御」する SALVE 枠組みを提案することで、モデルの透明性と制御性を高める新たな手法を提示しています。
本論文は、手術映像における器具セグメンテーションの課題を解決するため、SAM3 のメモリ更新や容量制限、再出現時の識別問題を克服するトレーニング不要な拡張手法「ReMeDI-SAM3」を提案し、複数のデータセットで既存手法を上回る性能を達成したことを報告しています。
この論文は、5 か国 1,000 人の調査とストリートビュー画像を用いた分析を通じて、都市の緑化に対する主観的認識と客観的測定値の乖離が世界的に普遍的であり、個人の属性や性格よりも居住地域による文化的・環境的経験の影響が最も大きいことを明らかにしています。
本論文は、拡散モデルの事前知識と形状からの陰影(SfS)の手がかりを組み合わせ、推論時に自己教師ありで再照明を行う「Re-Depth Anything」を提案し、Depth Anything V2 や V3 の推定深度をラベルなしで高精度かつリアルに洗練させる手法を提示するものである。
この論文は、単一画像からの 3D 意味シーン補完において、可視領域の知覚と遮蔽領域の推論を分離・統合する「VOIC」という新たな双デコーダフレームワークを提案し、既存手法を上回る性能を達成したことを示しています。
この論文は、ハイブリッド選択的スキャンと軽量チャネル MLP を組み合わせた効率的な Vision Mamba 基盤の超解像フレームワークを提案し、7T 脳 MRI および 1.5T 前立腺 MRI において、既存の深層学習モデルを大幅に凌駕する高精度かつ低計算コストを実現したことを報告しています。
本論文は、自動運転における生成ワールドモデルの進捗を測定し、視覚的リアリズム、軌道の妥当性、時間的整合性、制御性を包括的に評価する初のベンチマーク「DrivingGen」を提案し、既存モデルの課題とトレードオフを明らかにしたものである。
この論文は、Swin トランスフォーマーとシーケンス・ツー・シーケンス言語デコーダを統合し、2 段階のトレーニング戦略を採用することで、作物病害の視覚的質問応答において高い精度と説明可能性を達成する軽量なマルチタスク視覚言語フレームワークを提案しています。
本論文は、医療画像分析における大規模視覚言語モデルの限界を克服するため、タスクに応じたプロンプト構成、例示記憶に基づく生成、臨床的誤りの批判的検証、そして修正という 4 つの協調エージェントからなる自己改善型フレームワーク「R^4」を提案し、微調整なしでレポート生成および物体検出の精度を大幅に向上させることを示しています。
この論文は、画像生成 AI の学習データ選定に広く用いられている「LAION-Aesthetics Predictor」を監査・追跡民族誌的に調査し、その評価基準が西洋中心の男性視点や帝国主義的視線を反映して特定の文化的・社会的バイアスを強化していることを明らかにし、AI 開発者に対し画一的な美の尺度から多様な評価へと転換するよう呼びかけています。
本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。
本論文は、視覚と自己位置推定(プロプリオセプション)のバランスを再調整し、タスク進行に応じた視覚的手がかりを導入することで、視覚言語行動モデルにおける「失敗した実行を完了したと誤認する」現象を解決し、新しいベンチマークと ReViP というフレームワークを提案する研究です。
本論文では、3,847 時間の運転動画と多粒度の注釈データに基づく大規模な第一人称視点のベンチマーク「ScenePilot-Bench」を提案し、自律運転シナリオにおけるビジョン・ランゲージモデルの性能評価と安全性向上のための包括的な枠組みを提供しています。
この論文は、音声の周波数特性と質問文の文脈を空間・時間・周波数領域で統合的に相互作用させる「QSTar」手法と「QCR」ブロックを提案し、既存の手法よりも優れた音楽音声・視覚質問応答(AVQA)の性能達成を実現したことを示しています。
本論文は、瞬間速度ではなく平均速度の視点を導入し、キャッシュされたヤコビ行列 - ベクトル積を活用して局所誤差の蓄積を抑制するトレーニング不要の「MeanCache」フレームワークを提案し、FLUX.1 や HunyuanVideo などの大規模生成モデルにおいて、画質を維持しつつ最大 4.56 倍の推論高速化を実現することを示しています。
本論文は、衝突処理の課題を解決し、物理的に現実的な衣類のドレーピングを実現するために、明示的な力と制約条件を統合したハイブリッドなニューラル - 物理ソルバー「PhysDrape」を提案するものである。
本論文は、V2X 協調知覚におけるドメイン適応の課題を解決するため、最適輸送理論に基づき冗長なサンプルをフィルタリングする手法と、意味情報の劣化を防ぐ段階的知識転送モジュールを組み合わせたパラメータ効率型フレームワーク「FlowAdapt」を提案し、学習可能パラメータを 1% に抑えながら最先端の性能を実現することを示しています。
本論文は、自律走行におけるマルチモーダル大規模言語モデルの計算コストを最大 30 倍削減しつつ、全トークンを使用した場合と同等の性能を維持する初の教師ありトークン削減フレームワーク「SToRM」を提案し、LangAuto ベンチマークで最先端の手法を上回る結果を示したものである。