Phi-4-reasoning-vision-15B Technical Report
本論文は、高品質なデータキュレーション、高解像度のエンコーダ、および推論モードと直接回答モードを切り替えるハイブリッド設計により、限られた計算資源で科学・数学的推論や UI 理解に優れた性能を発揮するコンパクトなオープンウェイト多モーダルモデル「Phi-4-reasoning-vision-15B」の開発と、その設計思想を報告するものです。
5561 件の論文
本論文は、高品質なデータキュレーション、高解像度のエンコーダ、および推論モードと直接回答モードを切り替えるハイブリッド設計により、限られた計算資源で科学・数学的推論や UI 理解に優れた性能を発揮するコンパクトなオープンウェイト多モーダルモデル「Phi-4-reasoning-vision-15B」の開発と、その設計思想を報告するものです。
本論文は、リモートセンシング画像における推論駆動セグメンテーションの課題を解決するため、教師なしでバイアス補正と二重経路プロンプティングを組み合わせたフレームワーク「GeoSeg」と、その性能を評価する新しいベンチマーク「GeoSeg-Bench」を提案し、既存手法を上回る性能を実証しています。
本論文は、オフラインパラダイムに依存する既存のマルチモーダル大規模言語モデルの限界を克服し、リアルタイムな双方向性を備えた動画理解を評価・促進するための新たなベンチマーク「RIVER」を提案し、その評価を通じて長期記憶や未来予測の課題を特定し、リアルタイム対話を可能にする汎用的な改善手法を提示したものである。
本論文は、顔のパレイドリア現象を用いた診断フレームワークを提案し、視覚モデルが曖昧な視覚証拠を解釈する際、検出モデルの保守的抑制や ViT の不確実性に基づく棄却とは異なり、VLM が「人間」概念への意味的過活性化を示すことを明らかにし、この挙動がスコア閾値ではなく表現の選択に依存し、不確実性とバイアスが分離していることを示しています。
この論文は、専門家の注釈が限られている糖尿病網膜症のスクリーニングにおいて、特徴空間アンサンブルに基づく二段階フレームワーク「SAFE」を導入することで、未注釈の病変領域を系統的に拡張し、下流タスクの性能を大幅に向上させることを提案しています。
本論文は、推論セグメンテーションにおいてマルチモーダル大規模言語モデルの推論連鎖が対象領域から逸脱する問題を解決するため、対象の記述的キャプションを生成し文脈との対比を通じて「識別的知覚」を強制する DPAD を提案し、これにより性能向上と推論の短縮を同時に達成したことを示しています。
本論文は、放射線レポート生成タスクにおいて、診断的多様性に基づくデータサンプリング戦略と臨床的に重要なトークンを重点的に最適化する DiTPO 手法を提案することで、従来の強化学習よりも少ないデータ量で臨床精度を大幅に向上させる新しい枠組みを提示しています。
本論文は、曖昧な医療画像セグメンテーションにおける不確実性を定量化しつつ解剖学的整合性を保つため、決定論的なコンセンサス事前分布を生成軌道に固定し、3D 境界残差場を予測する「体積方向拡散(VDD)」を提案し、複数のデータセットで最先端の性能を実証したものである。
本論文は、合成画像検索において既存の対照学習が抱える関連性の抑制や意味的混同の課題を解決するため、修正テキストに条件付けられた学習可能属性重みと、中程度の難易度を持つネガティブサンプルを抽出するターゲット相対ネガティブサンプリングを導入し、高弁別性を持つクエリ埋め込みを学習する手法「DQE-CIR」を提案するものである。
この論文は、長期にわたる海底環境における視覚的局所化を促進するために、複数のサイトと数年にわたるデータを含むキュレーションされたデータセット、視覚的重なりを正確に評価するための足跡ベースの真値推定手法、および最先端の視覚的場所認識手法のベンチマーク結果を提示するものである。
本論文は、Stable Diffusion 3 のようなマルチエンコーダ構造を持つ拡散モデルにおいて、全パラメータの 0.2% 未満を学習する軽量な手法「MELT」を提案し、複数の大規模テキストエンコーダを組み合わせた環境でも効率的かつ効果的なバックドア攻撃が可能であることを実証しています。
本研究は、極小パッチ(40x40 ピクセル)の細胞レベル病理画像解析において、十分な学習データがあればタスク特化型アーキテクチャがファウンデーションモデルよりも高精度かつ効率的であることを示し、大規模事前学習モデルの優位性は限定的であると結論付けています。
AR/VR 向けに、Transformer ベースのモデルと不確実性を利用した教師あり学習による自動ラベリングシステムを組み合わせることで、限られた視点や欠損データ下でも高精度かつ低遅延な egocentric 人体姿勢推定を実現する「EgoPoseFormer v2」を提案する論文です。
この論文は、CLIP 埋め込みを活用したレベル認識型ビジョン・ランゲージフレームワークを提案し、多視点植物画像から植物の年齢と葉の数を単一モデルで高精度に予測することで、既存の手法を大幅に上回る性能を達成したことを報告しています。
この論文は、常時装着型カメラの映像ストリームから、視線の安定性(画質)と瞳孔反応(新奇性)という 2 つの補完的な指標を用いて重要なフレームを選択する「Dual-Criterion Frame Curator」を提案し、学習コストを大幅に削減しながらタスクに応じた高精度な認識性能を維持することを示しています。
本論文は、点群処理における効率的な特徴抽出を可能にする「抽象化と洗練(ABS-REF)」の視点を提唱し、高次元位置符号化(HPE)と非局所 MLP を組み合わせた HPENets を開発することで、PointNeXt などの既存モデルを大幅に上回る精度を、はるかに少ない計算コストで達成することを示しています。
この論文は、脳 MRI 画像から推測される人口統計学的属性(年齢、性別、人種など)の予測可能性が、主に解剖学的な変異に起因し、画像取得に依存するコントラストの違いは限定的かつデータセット固有の信号であることを、解剖学とコントラストを分離する表現学習フレームワークを用いて実証し、バイアス軽減策が両者の起源を区別して対処する必要性を提言しています。
本論文は、リモートセンシング画像の任意のモダリティ間変換を可能にする統合 latent diffusion フレームワーク「Any2Any」と、その学習を支援する大規模データセット「RST-1M」を提案し、既存の手法を上回る性能と未見のモダリティ組み合わせへの汎化能力を実証したものです。
本論文は、OCR によって抽出された補助的なテキスト情報をデコーダに伝送し、注意機構による融合と正則化損失を用いて超低ビットレート画像圧縮における小文字の忠実度を大幅に向上させつつ、全体の画質を維持する「TextBoost」という手法を提案しています。
この論文は、従来の閉集合仮定の限界を克服し、動画データにおける未知動作の検出能力を飛躍的に向上させる「Feature-Residual Discriminator」に基づくアーキテクチャを提案し、5 つのデータセットで新たな最先端性能を達成した Few-Shot Open-Set 動作認識の基線研究とベンチマークを確立するものです。