Vision-Language Feature Alignment for Road Anomaly Segmentation
既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。
7477 件の論文
既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。
本論文は、複雑な環境下でのロボット組立におけるスナップ接合の検出精度と効率を向上させるため、専用センサーと自己注意機構に基づくマルチスケール特徴融合ネットワーク「SMR-Net」を提案し、従来の手法と比較して IoU や mAP を有意に改善したことを報告しています。
本論文は、直感的な推論と外部視覚ツールの適応的な呼び出しを組み合わせる「TAR-FAS」フレームワークを提案し、多様なツール利用推論データセットと学習手法を通じて、顔生体認証におけるスプーフィング検出の汎化性能と信頼性を大幅に向上させることを示しています。
本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。
本論文は、強化学習における報酬の曖昧さを解消し、失敗の根本原因を特定する構造化された診断フィードバックを導入することで、自律運転における Vision-Language-Action モデルの性能を飛躍的に向上させ、NAVSIM ベンチマークで最先端の成果を達成する「ELF-VLA」というフレームワークを提案しています。
本論文は、テキスト理解と画像生成を統合し、柔軟な長さをサポートする新しいマルチモーダル拡散モデル「LLaDA-o」を提案し、その有効性を示すものです。
本論文は、UAV の音響検出と追跡向けに、層ごとの感度に基づく量子化と構造化プルーニングを活用し、並列処理に依存せず低消費電力かつ高精度な推論を可能にする逐次 8 ビットハードウェアアクセラレータ「SHIELD8-UAV」を提案するものである。
本論文は、悪天候下での LiDAR セマンティックセグメンテーションの性能低下に対処するため、データ拡張による意味的シフトを適応的に制御し、複数のベンチマークで最先端の結果を達成する「A3Point」という新しいフレームワークを提案しています。
本論文は、複数の視覚的・テキスト的条件を同時に満たす細粒度なマルチモーダル検索を評価するための大規模ベンチマーク「MCMR」を提案し、既存モデルの限界と条件意識型推論の重要性を実証的に明らかにしたものです。
この論文は、グラフィックデザインの美的評価を包括的に行うための新たなベンチマーク「AesEval-Bench」と学習データセットを提案し、既存の視覚言語モデル(VLM)の性能限界を明らかにするとともに、人間のガイドによる大規模なラベル付けと推論に基づく微調整を通じて、この分野における最初の体系的な評価枠組みを確立したものである。
本論文は、既存のテキスト埋め込み空間 SONAR を拡張して視覚・言語情報を統合する V-SONAR を提案し、これを用いて大規模概念モデル(LCM)を視覚言語タスクに拡張した V-LCM を開発することで、多言語・多モーダルな理解能力を大幅に向上させ、多数の言語で最先端のモデルを上回る性能を達成したことを示しています。
この論文は、医療画像分析における差分プライバシーの影響を、表現空間の構造的変換として解釈し、エンコーダの幾何学的変化とタスクヘッドの利用率の低下に分解して分析する新たなフレームワーク「DP-RGMI」を提案し、胸郭 X 線画像の大規模データを用いた検証を通じて、プライバシー保護が表現の等方性を均一に縮退させるのではなく、初期化やデータセットに依存した非単調な変化を引き起こすことを明らかにしています。
本論文は、限られた手描きサンプル(470 例)から油絵の筆触を生成するデータ効率の高い拡散モデル「StrokeDiff」を提案し、平滑化正則化(SmR)による学習安定化とベジェ曲線に基づく制御性の実現を通じて、表現豊かで構造化されたマルチメディアコンテンツ作成を可能にすることを示しています。
本論文は、スマートグラス上で動作する Web ネイティブの神経記号フレームワーク「Egocentric Co-Pilot」を提案し、大規模言語モデルと視覚・音声入力を統合して長期的な推論や意思決定を支援することで、視覚障害者や認知負荷の高い人々を含むユーザーの日常生活におけるアクセシビリティとタスク遂行能力を向上させることを実証しています。
本論文は、手術中の文脈に応じた特定の器具インスタンスを言語指示に基づいて特定する新たなベンチマーク「GroundedSurg」を提案し、既存の分類ベースの評価では捉えきれない臨床現場での視覚言語推論の必要性と課題を明らかにしたものである。
本論文は、医療画像セグメンテーションにおいて事前学習済みビジョンモデルを完全微調整せずに活用するため、DINOv3 の特徴を軽量なトークンプロトタイプ集約メカニズムで空間的ガイドマスクに変換し、既存のセグメンテーションアーキテクチャに事前知識を注入する「GuiDINO」というフレームワークを提案するものである。
本論文は、医療用視覚言語モデルの事実的幻覚を軽減し、局所的な病理学的証拠に基づいた推論を強化するため、視覚領域に根ざした推論プロセスを構築する自動データ生成パイプラインとスコアベースの最適化戦略を備えた「ClinCoT」という臨床意識型視覚連鎖推論フレームワークを提案し、複数の医療ベンチマークで既存手法を上回る性能を実証しています。
本論文は、複雑な構成的視覚関係(CVR)タスクを解決するため、正常な事例間の類似性を最大化し異常との差異を最小化する拡張異常コントラスト学習と、予測・検証のパラダイムを組み合わせた「PR-A²CL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。
この論文は、Vision Transformer 枠組み内で環境バイアス調整、直交性制約による内容とノイズの厳密な分離、そして Google の Nano Banana Pro を用いた因果的プリアの導入を通じて、画像ノイズ除去における因果的干渉と正交な内容・ノイズの解離を実現し、高い忠実度とリアルタイム処理性能を達成する「TCD-Net」を提案するものである。
本論文は、大規模な可動性データセットで学習された 3D 多モーダル大規模言語モデル「ArtLLM」を提案し、3D メッシュから可動アセットの部品配置と関節構造を推論して高品質な幾何形状を生成する新たなフレームワークを確立し、既存手法の限界を克服してロボティクスやシミュレーション向けにスケーラブルなデジタルツイン構築を実現することを示しています。