Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner
本研究は、病理学テキストや専門家からの高品質な推論指向データセットを活用し、3 段階の学習パイプライン(継続的事前学習、推論を促す教師あり微調整、強化学習)により訓練されたマルチモーダル強化学習ベースの病理専門推論モデル「Patho-R1」を提案し、その卓越した性能を実証したものである。
10070 件の論文
本研究は、病理学テキストや専門家からの高品質な推論指向データセットを活用し、3 段階の学習パイプライン(継続的事前学習、推論を促す教師あり微調整、強化学習)により訓練されたマルチモーダル強化学習ベースの病理専門推論モデル「Patho-R1」を提案し、その卓越した性能を実証したものである。
この論文は、複雑な指示に基づく画像編集の能力を包括的に評価するための大規模ベンチマーク「CompBench」を提案し、MLLM と人間の協働フレームワークおよび指示の解離戦略を用いて、既存モデルの限界を浮き彫りにし、次世代システムの開発に貢献するものです。
本論文は、スパイクカメラの非同期かつスパースな出力と自然言語を直接対応させるために、階層的スパイク特徴抽出器とスパイク・テキスト対照学習を採用し、数ショット学習やエネルギー効率の向上を実現する初のスパイク動画・言語アライメントモデル「SPKLIP」を提案するものです。
本論文は、予測学習におけるサンプリングの一貫性を向上させるため、条件理解とターゲットのノイズ除去を分離し、事前学習済み予測器を活用した新しいフレームワーク「Foresight Diffusion (ForeDiff)」を提案し、ロボット動画予測や科学時空間予測において高精度かつ一貫性のある生成を実現することを示しています。
この論文は、希少動物の画像分類におけるデータ不足という課題に対処するため、適応的 DCT 前処理、ViT-B16 と ResNet50 のハイブリッドバックボーン、およびベイズ線形分類器を組み合わせた新しい深層学習フレームワークを提案し、極端なサンプル不足条件下で最先端の精度を達成したことを示しています。
本論文は、大規模言語モデルの部分的な支援を活用した効率的な好対データ構築パイプラインと、参照モデルを不要としながら言語能力の維持と負の好対の支配を防ぐ新たな最適化手法「SynPO」を提案し、これによりビデオ詳細キャプション生成の性能と学習効率を大幅に向上させることを示しています。
ReSpace は、自然言語による指示と明示的な部屋境界を備えたコンパクトな構造化シーン表現を用いて、物体の追加・削除・入れ替えを含む 3D 室内シーンの自動生成と編集を実現する新しい生成フレームワークです。
本論文は、宇宙環境における人間の行動とシーンの理解を可能にする初のベンチマーク「MicroG-4M」を提案し、実際の宇宙ミッションや映画シミュレーションから収集されたデータを用いて、微重力下での動作認識、動画キャプション生成、視覚的質問応答といったタスクの評価基盤を確立したものである。
この論文は、Grad-CAM による層の寄与度分析に基づいて不要な層を削減し、SHAP や LIME による検証を組み合わせることで、脳腫瘍 MRI 画像分類において高い精度を維持しつつモデルの透明性と信頼性を向上させる手法を提案しています。
本論文は、対称的な学習目標を用いて画像生成、セマンティックセグメンテーション、分類を単一のモデルで統合し、高品質な生成と効率的な推論を両立させる「Symmetrical Flow Matching(SymmFlow)」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。