Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach
この論文は、クエリ頻度パターンとクラスタ一貫性メトリクスを活用して計算リソースを動的に割り当てる適応型プリフィルタリング手法を提案し、ImageNet-1k における実験で、静的な nprobe 選択と比較して距離計算を 20.4% 削減しながら同等の再帰率を達成することを示しています。
7619 件の論文
この論文は、クエリ頻度パターンとクラスタ一貫性メトリクスを活用して計算リソースを動的に割り当てる適応型プリフィルタリング手法を提案し、ImageNet-1k における実験で、静的な nprobe 選択と比較して距離計算を 20.4% 削減しながら同等の再帰率を達成することを示しています。
本論文は、生物学的大規模言語モデルの静的な融合の限界を克服し、双方向 Mamba エンコーダを用いた状態空間アライメント手法「CrossLLM-Mamba」を提案することで、RNA-タンパク質、RNA-小分子、RNA-RNA 間の相互作用予測において最先端の性能を達成したことを示しています。
本研究は、基礎モデルの再学習を行わずに下流タスクのモデル訓練時に新しいロバスト性損失を導入することで、組織病理学における基礎モデルの技術的ばらつきへの感度を低減し、臨床実装に適した頑健で高精度な診断モデルの開発を可能にすることを示しています。
本論文は、モンテカルロ木探索とニューラルアーキテクチャ探索を組み合わせ、医療画像セグメンテーションの精度を維持しつつ検索効率とモデル軽量化を大幅に実現した「MNAS-Unet」を提案するものである。
本論文は、単一 UAV 動画からの動的 4 次元再構成における深度曖昧性と不安定な運動推定という課題を、モノクロ幾何学的リフティングと物理的制約(接地、直立安定性、軌道滑らかさ)を組み合わせた最適化により解決し、実世界データセットを含めて最先端の性能を実現する「AeroDGS」を提案するものである。
本論文は、手動セグメンテーションを不要としながら、臓器に焦点を当てたアテンション損失関数(OFA)を用いた深層学習フレームワークを開発することで、腎腫瘍の悪性度を従来手法よりも高精度に予測し、臨床意思決定を支援する新しいアプローチを提案しています。
本論文は、ViT が背景パッチに依存する「怠惰な集約」行動によってアーティファクトが発生するメカニズムを解明し、CLS トークンへのパッチ特徴の選択的統合により、多様な教師あり・自己教師あり学習タスクにおいてアーティファクトを低減し性能を向上させる手法を提案しています。
本研究は、1 次元の SELFIES 配列、2 次元の分子グラフ、3 次元のコンフォーマー集合をクロスアテンションで統合し、実験的コンテキストを FiLM で条件付けることで、分子物性予測の精度を大幅に向上させるマルチモーダルモデル「MolFM-Lite」を提案し、その有効性を包括的な評価とオープンソース化によって実証したものである。
本論文は、マルチモーダル大規模言語モデルが画像内のテキストを真に「読んでいる」か否かを検証し、テキスト提示に依存する「モダリティの怠惰」を発見した上で、学習サンプルを画像上にテキストを可視化して提示する「SimpleOCR」という構造制約付きのトレーニング戦略を提案し、アーキテクチャ変更なしに分布外タスクでの性能を大幅に向上させることを示しています。
本論文は、プライバシーと遅延の懸念を解消するため、ストリーミング制約下で非同期スレッドを用いてビデオを軽量テキストに変換し、エッジデバイス上でリアルタイムにエピソード記憶に基づく質問応答を実現するマルチモーダル大規模言語モデルの手法を提案し、クラウドベースのソリューションと競合する精度と応答速度を達成したことを示しています。
本論文は、プライバシーと再現性を確保しつつ、オープンソースの視覚言語モデルと局所的な検索拡張生成(RAG)を活用して、マンモグラフィーのレポート生成および多タスク分類を可能にする拡張可能なローカルパイプライン「MammoWise」を提案し、その有効性を検証したものである。
本論文は、住宅間取り生成において事前学習モデルが軽視しがちな公共空間の支配性や機能的階層性を、空間構文の知識を非微分可能なオラクルを通じて明示的に注入する「SSPT」という事後学習パラダイムを提案し、PPO による強化学習戦略が計算効率と性能の両面で優れていることを示しています。
この論文は、自己教師あり学習による視覚辞書の学習と意味分解を組み合わせて、参照画像と自然言語による編集指示から意図を正確に反映しつつ多様性のある画像を検索する新しいコンポーズ画像検索手法「Pix2Key」を提案し、DFMM-Compose ベンチマークで既存手法を上回る性能を示したことを報告しています。
本論文は、低線量 CBCT 画像のノイズ除去とエッジ保持を両立させるため、ハイブリッド注意機構と残差学習を組み合わせた「HARU-Net」を提案し、既存の最先端手法を性能と計算コストの面で上回る結果を得たことを報告しています。
この論文は、T1 強調 MRI と FLAIR MRI から Tau-PET を合成し、各モダリティの寄与を可視化することでアルツハイマー病の病態解析を可能にする、部分情報分解に基づくベクトル量子化エンコーダと構造エッジ条件付き Half-UNet デコーダを組み合わせた「DisQ-HNet」という新しいフレームワークを提案するものです。
本論文は、幾何条件間の依存関係を軽減する逐次学習戦略、多視点階層記述による微細なテキストガイダンス、および高周波要素への感度を高める周波数誘導構造損失という 3 つの革新を導入し、自律運転システムの検証に不可欠な多様な運転シーンの生成において最先端の忠実度と制御性を実現する「DrivePTS」を提案しています。
SwiftNDC は、ニューラル深度補正フィールドを用いてクロスビュー整合性のある深度マップを生成し、これにより 3D ガウシアンスプラッティングの初期化を改善することで、メッシュ再構築の高速化と新規視点合成の画質向上を実現する高速かつ汎用的な 3D 再構築フレームワークです。
この論文は、実世界の複雑なノイズ環境において、連続的に変化する汚染強度を再構成誤差から推定し、品質スコアに基づく階層的学習戦略を採用することで、既存手法の限界を克服する「品質感知型ロバスト多視点クラスタリング(QARMVC)」フレームワークを提案し、複数のベンチマークデータセットで最先端の性能を実証したものである。
本論文は、拡散モデルの生成評価において従来の指標が大きなガイダンススケールへのバイアスを持つという致命的な欠陥を指摘し、公平な比較を可能にする新たな評価フレームワーク「GA-Eval」を提案するとともに、既存のガイダンス手法の多くが実際には標準的な CFG よりも劣ることを実証し、この分野の評価パラダイムの見直しを促しています。
本論文は、拡散モデルの事前知識を効率的に活用しつつ、カメラ姿勢やテスト時の勾配最適化を必要とせず、数秒の推論時間で少数の未 poses 画像から高品質な 3D ガウススプラッティングを生成する、反復的なフィードフォワードフレームワーク「GIFSplat」を提案しています。