GrapHist: Graph Self-Supervised Learning for Histopathology
この論文は、組織を細胞グラフとして生物学的にモデル化し、マスクドオートエンコーダーとヘテロフィリックグラフニューラルネットワークを組み合わせた自己教師あり学習フレームワーク「GrapHist」を提案し、パラメータ数を大幅に削減しながらスライドから細胞レベルまでの多様なタスクで優れた性能を示すとともに、大規模なグラフベースの病理データセットを公開したことを報告しています。
6104 件の論文
この論文は、組織を細胞グラフとして生物学的にモデル化し、マスクドオートエンコーダーとヘテロフィリックグラフニューラルネットワークを組み合わせた自己教師あり学習フレームワーク「GrapHist」を提案し、パラメータ数を大幅に削減しながらスライドから細胞レベルまでの多様なタスクで優れた性能を示すとともに、大規模なグラフベースの病理データセットを公開したことを報告しています。
本論文は、CoTransformer による潜在空間の解離とコントラスト学習、および DDIM 拡散モデルを組み合わせた「DHVAE」を提案し、物理的妥当性と意味的整合性を兼ね備えた高品質な 3D 人間間相互作用生成を実現するものである。
本論文は、3D ガウススプラッティングを MRI 再構成に応用した「M-Gaussian」を提案し、物理的整合性を持つガウスプリミティブや多解像度学習などにより、高品質かつ高速な多スタック MRI 画像の等方性再構成を実現したものである。
本論文は、医療用ビジョン・ランゲージモデルの言い換えに対する一貫性を高めるため、メカニズムに基づくスパース・オートエンコーダの転知と、一貫性と正解率を両立させる LoRA 微調整を組み合わせる手法を提案し、翻転率の大幅な削減と精度の維持・向上を実証したものである。
本論文は、マルチスケール残差補正と物理的整合性を拡散プロセスに組み込むことで、流体の超解像において高精度・高忠実度を実現し、従来の拡散モデルよりも大幅に少ないサンプリングステップで効率的に計算を行う「ReMD」と呼ばれる新しいフレームワークを提案しています。
この論文は、追加学習や微調整を必要としない勾配ベースの「アンカーとシム」手法を用いることで、拡散モデルが透かしや著作権保護を回避し、著作権のある画像を複製できることを実証し、ニューラルモデルによるデータ盗用の深刻な脅威を浮き彫りにしています。
この論文は、自己遮蔽による視覚の制約を克服し、ロボットが人間と安全に協働するために不可欠な動作進行予測の精度を向上させるため、モバイル ALOHA 上で多視点アーキテクチャを提案し、その有効性を実証したものである。
本論文は、意味的関連性を考慮した情報抽出、テキストの画像化によるトークン圧縮、および補助モデル不要なレイアウト違反検出という 3 つの革新技術により、学術ポスター生成における情報密度、トークン効率、およびレイアウトの信頼性を大幅に向上させるエンドツーエンドのフレームワーク「EfficientPosterGen」を提案するものである。
この論文は、限られたラベル付きデータや臨床的な画像劣化に強い頑健な医療画像セグメンテーションを実現するため、視覚的特徴によるテキスト表現の反復的洗練と拡張一貫性目的を備えた双方向マルチモーダル融合フレームワーク「BiCLIP」を提案し、主要ベンチマークで最先端の手法を上回る性能を示したことを報告しています。
本論文は、富士山の webcam 画像と気象データを後期融合するマルチモーダル学習フレームワーク「FujiView」を提案し、観光計画や環境予測に有用な景観視界の高精度予測を実現したことを報告するものである。
本論文は、マルチモーダル大規模言語モデルに基づく人間に合致した評価システムと群相対方策最適化(GRPO)を用いた強化学習フレームワーク「FlowPortrait」を提案し、音声駆動による肖像動画生成におけるリップシンクの精度、表現力、および自然さを大幅に向上させることを示しています。
本研究は、大規模な雑草・作物データセットの不足を解決するため、自己教師あり学習で微調整された DINOv3 を YOLO26 に統合し、野菜圃場における雑草検出の精度と汎化性能を大幅に向上させた新たなモデルを提案しています。
本論文は、特殊な機器や専門家への依存を減らすため、一般的なスマートフォンと軽量なコンピュータビジョン技術を用いて、赤みの定量や瞬き率の推定など 5 つのモジュールによる説明可能な眼科スクリーニングおよび経時的追跡を実現する「SKINOPATHY AI」というシステムを提案し、そのアーキテクチャ、アルゴリズム、臨床的意義を詳述したものである。
本論文は、がん診断における FDG-PET/CT 画像の読影パターンを捉えた大規模な眼球追跡データセット「GazeXPErT」を提示し、専門家の注視情報を統合することで AI による腫瘍セグメンテーションや病変局所化の精度向上、および説明可能な医療 AI の実現に貢献できることを示しています。
本論文は、極端なクラス不均衡に直面するホワイトボードのストロークセグメンテーションにおいて、従来の領域指標では見逃されがちな細いストロークの失敗を可視化し、境界指標とサブセット公平性分析を統合した新しい評価プロトコルを提案し、重なりベースの損失関数や高解像度学習が精度と頑健性の両面で古典的手法を上回ることを実証しています。
本論文は、MLLMs における視覚的注意信号の断片化や冗長なテキストに依存する既存手法の課題を克服し、中間層での注意集約と簡潔な意味的手がかりを用いた ROI 抽出を行う「ConFoThinking」を提案し、複数の VQA ベンチマークで視覚認識性能を大幅に向上させることを示しています。
本論文は、生成 AI が複雑な画像よりも単純な単色画像の生成で失敗する「単純さのパラドックス」を「服従性」の概念で体系化し、色生成に特化した初のベンチマーク「VIOLIN」を提案することで、モデルの指示遵守能力の限界を明らかにし、この課題への関心を喚起することを目的としています。
本論文は、トルコ産のオリーブ品種を自動分類するために、ステレオカメラで取得した画像を転移学習を用いた深層学習モデル(MobileNetV2 および EfficientNetB0)で処理し、EfficientNetB0 が 94.5% の精度で最適な性能を示したことを報告している。
本論文は、約 5,000 万の動画クリップからゼロから構築された大規模動画基盤モデル「Summer-22B」の開発において、データセットエンジニアリングが最も重要な要素であり、メタデータ駆動型のキュレーションやμP パラメータ化などの技術的知見を体系的に報告したものです。
GUI 環境における KV キャッシュの過剰なメモリ使用量と遅延を解消するため、UI 要素の空間的注目度と操作軌道の意味的冗長性を考慮した新しいスコアリング手法「ST-Lite」を提案し、学習なしでキャッシュサイズを大幅に削減しながら高速な推論と高い性能を両立させることを実証した。