HDINO: A Concise and Efficient Open-Vocabulary Detector
HDINO は、手動キュレーションされたデータやリソース集約的な特徴抽出に依存せず、ノイズサンプルを有効活用した二段階の学習戦略により、既存のオープンボキャブラリー検出器を少ないデータ量で上回る性能を実現する効率的な検出器です。
5768 件の論文
HDINO は、手動キュレーションされたデータやリソース集約的な特徴抽出に依存せず、ノイズサンプルを有効活用した二段階の学習戦略により、既存のオープンボキャブラリー検出器を少ないデータ量で上回る性能を実現する効率的な検出器です。
本研究は、14,049 例の腎生検から抽出された 100 万個以上の糸球体で学習したエンティティ中心の基盤モデル「GloPath」を提案し、52 種類のタスクにおいて最先端の手法を上回る病変評価性能と、組織レベルの形態と臨床指標の関連性を発見する能力を実証したものである。
TC-Padé は、有理関数に基づく軌道一貫性のある特徴量予測フレームワークを導入し、拡散モデルの低ステップ数領域における推論速度を大幅に向上させながら高品質な生成を維持する手法です。
この論文は、ラベル割合事前知識に基づく「プロポーション損失」を半教師あり学習の正則化項として初めて導入し、クラス不均衡問題におけるバイアスを軽減して少数クラスの性能を向上させる軽量フレームワークを提案し、Long-tailed CIFAR-10 での実験で既存手法を上回る結果を示したものである。
本論文は、医療画像分野における極少量の教師ありデータでの視覚言語モデル適応において、ラベルなしデータを活用して擬似ラベルを伝播させる半教師ありソルバーを提案し、ラベル付けの負担を 50% 以上削減する手法を提示するものである。
本論文は、ファウンデーションモデルを活用した異常合成パイプラインと、異常の周波数特性を捉えるウェーブレットドメイン注意機構を組み合わせることで、工業用異常検知の精度と効率を大幅に向上させる手法を提案しています。
本論文は、大規模視覚言語モデルのアーキテクチャとナビゲーションタスクのミスマッチを解消するため、トポロジー構造を明示的に注入する「TagaVLM」を提案し、R2R ベンチマークで既存の手法を凌駕する性能を達成したことを報告しています。
本論文は、DINOv3 のパッチ埋め込み表現に対して 2 次元自己回帰モデルを導入し、空間的・文脈的依存関係を明示的に学習することで、既存の DINO ベース手法が抱える大規模なメモリ使用量や計算コストを削減しつつ、競合する性能を達成する効率的な教師なし異常検知フレームワークを提案しています。
この論文は、da Vinci Xi 内視鏡と構造化光カメラを用いてブタの死体から収集された、腹部の非剛体変形を伴う手術シーンの 4 次元再構成を評価するための大規模な「Dresden データセット(D4D Dataset)」を提案し、30 万フレーム以上の動画と数百の点群データを含む包括的なベンチマークとして、非剛体 SLAM や深度推定手法の開発・評価を可能にすることを示しています。
本論文は、3D ガウススプラッティング(3DGS)のシーンを、単一の編集画像と MLP の微調整のみで 2 秒以内にリアルタイムに再着色し、かつ鏡面反射などの視覚依存効果を維持する新規手法「VIRGi」を提案するものである。
本論文は、高解像度画像をパッチに分割し、事前学習された粗い幾何学情報とクロスパッチアテンションを統合した「Ultra Resolution Geometry Transformer (URGT)」を提案することで、単一画像からの深度と法線の推定において、細部と大域的整合性を両立し、UnrealStereo4K などで最先端の精度を達成する手法を提示しています。
本研究は、19 病院の 4 万超の患者から得られた約 2 億枚の画像を用いて開発され、汎用病理モデルを breast 専門知識と協働させることで、診断から予後予測までの 24 種類の臨床タスクにおいて最先端の性能を示した、乳がん病理に特化した最初の基盤モデル「BRIGHT」を提案し、その臨床的有用性と臓器特異的基盤モデル開発の新たなパラダイムを実証したものです。
本論文は、教育用 AI 生成動画の品質評価を目的とした初のベンチマーク「EduAIGV-1k」を構築し、知覚的品質とプロンプト整合性を細粒度で評価する新しいモデル「EduVQA」を提案するものである。
本論文は、高品質で大規模な DaTikZ-V4 データセットと逆グラフィックスに基づく強化学習を活用し、小規模なオープンソースモデル「TikZilla」を開発することで、テキストから高品質な TikZ 図を生成する性能を大幅に向上させ、GPT-5 に匹敵する結果を達成したことを報告しています。
本論文は、Sentinel-1 SAR 画像を用いた海氷分類タスクにおいて、FPGA 搭載のオンボード推論向けに設計された軽量セマンティックセグメンテーションネットワーク「TinyIceNet」を提案し、高精度な推論と大幅な省電力化を両立させることを実証しています。
本論文は、肺超音波画像の生成において解像度低下による診断情報の損失を防ぎ、生物医学的意味情報との整合性を保つために、a trous ウェーブレット変換と BioMedCLIP を統合した拡散モデル「AWDiff」を提案し、既存手法よりも高い構造的忠実度と多様性を達成したことを示しています。
本論文は、3 次元一貫性のある編集データが不足しているという課題に対し、3 次元基礎モデル VGGT の出力を報酬信号として活用する強化学習フレームワーク「RL3DEdit」を提案し、効率的かつ高品質な多視点一貫性を持つ 3 次元シーン編集を実現するものである。
Kling-MotionControl は、DiT ベースの統合フレームワークを用いて、身体・顔・手の動きを個別に最適化しつつ同一性を維持し、10 倍以上の高速推論を実現することで、高品質かつ制御性の高い汎用的なキャラクターアニメーションを可能にする技術です。
本論文は、安全なプロンプトに対する画像品質の劣化を最小限に抑えつつ、テキストから画像への生成モデルにおける安全性を向上させるために、対照的なデータセット「SafeSteerDataset」を構築し、非線形輸送マップと幾何学的条件付けを組み合わせた「Conditioned Activation Transport(CAT)」フレームワークを提案するものである。
本論文は、オムニマルチモーダル大規模言語モデルにおけるクロスモーダルの幻覚を軽減するため、無関係なモダリティのノイズへの不変性と関連モダリティの変化への感応性を強制し、テキスト依存を抑制する「モダリティ分離型直接選好最適化(MoD-DPO)」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。