Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation
本論文は、合成データを用いた教師あり前学習において、匿名化された実データからの形状バンクと解剖学的な配置戦略を導入することで、医療画像セグメンテーションの精度とスケーラビリティを大幅に向上させる新しいフレームワークを提案しています。
6949 件の論文
本論文は、合成データを用いた教師あり前学習において、匿名化された実データからの形状バンクと解剖学的な配置戦略を導入することで、医療画像セグメンテーションの精度とスケーラビリティを大幅に向上させる新しいフレームワークを提案しています。
本論文は、自己教師あり DINO 埋め込みを用いて動画を意味的なイベント単位に分割し、各イベントからクエリ関連性の高いフレームを「アンカー」として選択・最適化する「イベントアンカーフレーム選択(EFS)」手法を提案し、これにより既存の大型視覚言語モデルを学習不要でプラグイン可能にすることで、長動画理解の性能を大幅に向上させることを示しています。
本論文は、医療画像のテクスチャと形状の学習を両立させるため、境界領域を保護しつつ物理モデルに基づくテクスチャを生成する新しい合成フレームワークを提案し、これにより実データを用いない教師あり学習で最先端の性能を達成することを示しています。
本論文は、リモートセンシング分野における基盤モデルの単一モーダルからマルチモーダルへの進化を包括的に調査し、その定義と必要性を解説するとともに、初学者向けの実践的なトレーニングガイドを提供する技術調査である。
本論文は、ビジョンファウンデーションモデルと粗から細への姿勢推定ネットワークを活用し、安価な RGB-D カメラのみでドリフトに強く高精度なマーカーレス自由手動 3D 超音波再構成を実現する「MLRecon」を提案するものである。
本論文は、拡散モデルの事前学習済み確率密度から導出された測地線補間を用いてフロー経路を制約する「確率密度測地線フローマッチング(PDG-FM)」を提案し、拡散ベースの手法よりも視点間の一貫性と幾何学的整合性を向上させた新規視点合成フレームワークを確立しています。
この論文は、車両数の急増に伴う需要の高まりを背景に、電子駐車料金システムや高速道路の料金収受、交通監視、警察の取り締まりなど多様な分野での応用が期待される、車両のナンバープレート認識システムの技術的実装とノイズ除去について論じています。
本論文は、ミリ波レーダーの物理的な異方性に基づいて空間的不確実性場を学習し、双方向ドメイン注意機構を用いてノイズを抑制することで、低解像度や曖昧性といった課題を克服し、信頼性の高い空間検出を実現する「RaUF」というフレームワークを提案するものである。
この論文は、Implicit Neural Representations(INRs)の周波数バイアス問題を解決するため、フーリエ特徴とチェビシェフ特徴を組み合わせ、タスクに応じた周波数基底を効率的に合成・選択する「Content-Aware Frequency Encoding(CAFE)」およびその拡張版「CAFE+」を提案し、既存手法を上回る性能を実証したものです。
既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。
本論文は、複雑な環境下でのロボット組立におけるスナップ接合の検出精度と効率を向上させるため、専用センサーと自己注意機構に基づくマルチスケール特徴融合ネットワーク「SMR-Net」を提案し、従来の手法と比較して IoU や mAP を有意に改善したことを報告しています。
本論文は、直感的な推論と外部視覚ツールの適応的な呼び出しを組み合わせる「TAR-FAS」フレームワークを提案し、多様なツール利用推論データセットと学習手法を通じて、顔生体認証におけるスプーフィング検出の汎化性能と信頼性を大幅に向上させることを示しています。
本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。
本論文は、強化学習における報酬の曖昧さを解消し、失敗の根本原因を特定する構造化された診断フィードバックを導入することで、自律運転における Vision-Language-Action モデルの性能を飛躍的に向上させ、NAVSIM ベンチマークで最先端の成果を達成する「ELF-VLA」というフレームワークを提案しています。
本論文は、テキスト理解と画像生成を統合し、柔軟な長さをサポートする新しいマルチモーダル拡散モデル「LLaDA-o」を提案し、その有効性を示すものです。
本論文は、UAV の音響検出と追跡向けに、層ごとの感度に基づく量子化と構造化プルーニングを活用し、並列処理に依存せず低消費電力かつ高精度な推論を可能にする逐次 8 ビットハードウェアアクセラレータ「SHIELD8-UAV」を提案するものである。
本論文は、悪天候下での LiDAR セマンティックセグメンテーションの性能低下に対処するため、データ拡張による意味的シフトを適応的に制御し、複数のベンチマークで最先端の結果を達成する「A3Point」という新しいフレームワークを提案しています。
本論文は、複数の視覚的・テキスト的条件を同時に満たす細粒度なマルチモーダル検索を評価するための大規模ベンチマーク「MCMR」を提案し、既存モデルの限界と条件意識型推論の重要性を実証的に明らかにしたものです。
この論文は、グラフィックデザインの美的評価を包括的に行うための新たなベンチマーク「AesEval-Bench」と学習データセットを提案し、既存の視覚言語モデル(VLM)の性能限界を明らかにするとともに、人間のガイドによる大規模なラベル付けと推論に基づく微調整を通じて、この分野における最初の体系的な評価枠組みを確立したものである。
本論文は、既存のテキスト埋め込み空間 SONAR を拡張して視覚・言語情報を統合する V-SONAR を提案し、これを用いて大規模概念モデル(LCM)を視覚言語タスクに拡張した V-LCM を開発することで、多言語・多モーダルな理解能力を大幅に向上させ、多数の言語で最先端のモデルを上回る性能を達成したことを示しています。