A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology
本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。
2766 件の論文
本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。
本論文は、静止画や動画のハイブリッド参照と各要素の軌跡指定を可能にする「HECTOR」という生成パイプラインを提案し、複雑な時空間制約を満たしつつ高品質で参照に忠実な動画生成を実現するものである。
本論文は、CARLA 環境における物理的パッチ攻撃を用いたブラックボックス評価により、Dolphins、OmniDrive、LeapVAD という 3 つの VLM 型自律運転アーキテクチャがすべて深刻な脆弱性を有し、安全性を脅かす多フレームにわたる失敗や物体検出の劣化を引き起こすことを明らかにしています。
本論文では、外部の視覚的クエリに基づいて未編集動画内の対象物をピクセルレベルで全て検出する新たなタスク「視覚的クエリセグメンテーション(VQS)」を提案し、そのための大規模ベンチマーク「VQS-4K」と、SAM 2 を拡張した高性能な手法「VQ-SAM」を併せて紹介しています。
この論文は、甲状腺超音波画像のセグメンテーションと悪性度評価という競合するタスクにおいて、異なるアーキテクチャ(CNN と ViT)がドメインシフト下で異なる特徴を保持する傾向を明らかにし、マルチカーネルゲートアダプタ(MKGA)を導入することで、クロスセンター環境における頑健性と診断精度を向上させる手法を提案しています。
この論文は、臨床ガイドラインと視覚言語モデルを統合し、画像特徴・概念・診断を同時に学習して構造化された臨床ナラティブを生成する「MedCBR」という新しい概念ベースの推論フレームワークを提案し、医療画像診断の精度と解釈可能性を大幅に向上させることを示しています。
本論文は、大規模マルチモーダルモデルの推論能力を活用し、高圧環境における微表情の理解と時空的推論を評価する新たなタスク(ME-VQA および ME-LVQA)を含む「2026 年微表情グランドチャレンジ(MEGC2026)」を提案するものである。
本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。
この論文は、ドローン画像から植物シミュレーションの構成パラメータを生成するために、コンテキスト学習を活用したビジョン言語モデル(VLM)を初めて導入し、合成データと実世界のデータを用いてその性能と限界を評価した研究です。
本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。
本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。
この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。
本論文は、拡散トランスフォーマーにおけるスパースアテンションの計算コスト削減と情報損失の両立を可能にするため、クラスタセントロイドを用いたパラメータ不要の線形補償と、補償誤差を推定するエラー感知ルーティングを組み合わせた「SVG-EAR」を提案し、動画生成の品質を維持しつつ大幅な高速化を実現したものである。
本論文は、手術室の無菌環境やワークフローを乱すことなく、ガウススプラッティングに基づくマーカーレスな自動手眼較正フレームワーク「SurgCalib」を提案し、da Vinci 手術ロボットにおける高精度なツール位置推定を実現したものである。
本論文は、3D ガウススプラッティングの学習において、損失が飽和しているビューの逆伝播を適動的にスキップする「SkipGS」を提案し、再構成品質を維持しつつ学習時間を最大 23.1% 削減する手法を提示しています。
本論文は、印刷物の真正性を判定するために、元のテンプレートと印刷されたコピー検出パターン、およびプリンター固有のシグネチャを統合的に活用し、ControlNet を拡張した拡散モデルに基づく新しい認証フレームワークを提案し、従来の手法や既存の深層学習アプローチを上回る性能と未知の偽造への汎化能力を実証したものである。
本論文は、事前学習された正規化フロー(NF)モデルから導出されたカップリングを蒸留して学生モデルを訓練する「正規化フローマッチング(NFM)」を提案し、独立カップリングや最適輸送カップリングを用いた既存のフローモデルを凌駕する性能と、教師モデル自体の性能向上を実現することを示しています。
この論文は、畳み込みニューラルネットワーク(CNN)の幾何学的構造を正確に反映し、クロスエントロピー損失のヘッシアン行列のトレースの閉形式解を導出することで、モデルの汎化性能を評価し、アーキテクチャや訓練の設計を支援する新たな平坦性指標を提案しています。
この論文は、状態空間モデルと弱信号注意機構を統合した深層学習フレームワーク「WS-Net」を提案し、ハイパースペクトル画像の弱信号の崩壊を解決して、低 SNR 条件下でも主要なエンドメンバーと弱エンドメンバーの両方に対して高精度な豊度推定を実現することを示しています。
この論文は、拡散モデルの空間ドメインにおける限界を克服し、構造化されたスペクトル摂動と畳み込み定理を活用したフルプロダクトU-Netを導入することで、単一画像からの雨除去において高性能かつ効率的な「SpectralDiff」フレームワークを提案するものである。