Soft Equivariance Regularization for Invariant Self-Supervised Learning
この論文は、不変性と等変性のトレードオフを解決するため、最終埋め込みには不変性を維持しつつ中間空間トークンマップに等変性を「ソフト」に付与する新しい正則化手法「Soft Equivariance Regularization (SER)」を提案し、画像認識や物体検出などのタスクで既存の自己教師あり学習手法を大幅に改善することを示しています。
1882 件の論文
この論文は、不変性と等変性のトレードオフを解決するため、最終埋め込みには不変性を維持しつつ中間空間トークンマップに等変性を「ソフト」に付与する新しい正則化手法「Soft Equivariance Regularization (SER)」を提案し、画像認識や物体検出などのタスクで既存の自己教師あり学習手法を大幅に改善することを示しています。
この論文は、複数の医療機関間での拡散 MRI 解析を妨げるスキャナ間変動を、生体被験者の移動データに依存せず、輸送可能なファントムのみで訓練された深層学習モデル「HARP」を用いて効果的に調和させる手法を提案し、大規模臨床研究の現実性と拡張性を大幅に向上させることを示しています。
この論文は、放射線科医の視覚的検索プロセスを捉えた時間順の視線追跡データを「視線トークン」として VLM に導入し、医療画像の視覚的推論を人間のように順序立てて行うことで、MIMIC-EYE などのベンチマークにおいて最先端の性能とドメイン外での頑健性を達成した手法を提案しています。
本論文は、大規模な Vision Transformer を容量制約の厳しい CNN へ非対称的に蒸留する際、表現空間の次元が劇的に縮退(次元崩壊)し、これが教師モデルが持つノイズ耐性を失わせる根本的な幾何学的限界であることを示しています。
この論文は、精密農業における作物と雑草のインスタンスレベルの視覚的グラウンディングを可能にするため、負の表現を含む新しいデータセット「gRef-CW」と、マルチラベル階層関連性スコアリングを組み合わせたフレームワーク「Weed-VG」を提案するものです。
既存の画像品質評価手法が科学的妥当性を考慮していない課題を解決するため、科学的知識と知覚の両次元を評価対象とする新たな枠組み「SIQA」と大規模ベンチマークを提案し、モデルが専門家の評価スコアと一致しても科学的理解が不足している可能性を示唆する研究です。
本論文は、RGB 入力のみを用いたマルチモーダル大規模言語モデル(MLLM)がカメラ固有のパラメータに過剰適合し汎化能力に欠けることを指摘し、カメラ内部パラメータの注入、カメラパラメータの多様化によるデータ拡張、および 3D 視覚基盤モデルからの幾何学的知識の蒸留を行う「カメラ認識型 MLLM」を提案することで、空間推論タスクにおけるカメラ間での汎化性能を大幅に向上させることを示しています。
本論文は、太陽フレア予測の信頼性向上を目的として、分布仮定を必要としないコンフォーマル予測の枠組みを適用し、特にコンフォーマライズド・_quantile_回帰が他の手法よりも高いカバレッジ率と適切な区間長を実現することを示しています。
この論文は、埋め込みアルゴリズムに依存せず画像の透かし有無を検出する新しいタスク「UWPD」を提案し、大規模データセット「UniFreq-100K」と、周波数帯域を動的に制御して透かし信号を抽出する「FSNet」モデルを開発することで、未知の透かしに対するゼロショット検出性能を大幅に向上させたことを示しています。
この論文は、既存の手法が抱える語彙制限の課題を克服するため、新規なオープンボキャブラリタスクとベンチマークを提案し、階層的埋め込みと並列なクロスモーダル精緻化を採用した「HERO」と呼ばれる統一的なフレームワークを構築することで、動画内の文脈的セグメント特定における汎化性能を大幅に向上させたことを示しています。
本論文は、OCTA 画像から得られる血管の屈曲度や欠損マップなどの血管特異的バイオマーカーを外部乗算アテンション機構で統合し、加齢黄斑変性の病態生理に即した解釈可能な深層学習モデルを提案するものである。
この論文は、異なる学習目的(DDPM と Flow Matching)を混在させて分散学習を可能にする効率的なフレームワークを提案し、従来の分散拡散モデルに比べて計算リソースとデータを大幅に削減しながら、より優れた生成品質と多様性を達成する手法を提示しています。
本論文は、エッジデバイス向けにビジョントランスフォーマーの専門家(エキスパート)を独立した重み行列ではなく共有基底からの幾何学的な再配向として表現する「ButterflyViT」を提案し、64 個の専門家において精度をほぼ損なうことなくメモリ使用量を 354 倍削減することに成功したことを報告しています。
本論文は、可視画像と植生指数を融合し、自己注意機構と Grad-CAM++ などの説明可能性手法を組み合わせた軽量 CNN「XMACNet」を提案し、合成データ拡張により構築した新たな唐辛子病害データセット上で、既存モデルを上回る高精度かつ解釈可能な病害分類を実現したことを報告しています。
この論文は、第 4 回マルチモーダル航空画像コンペティション(MAVIC-T)の翻訳トラックで 2 位を獲得した「EarthBridge」という高忠実度変換フレームワークを提案し、非マルコフ型ブリッジプロセスを用いた拡散ブリッジ暗黙モデル(DBIM)と対照的学習に基づく非対照変換(CUT)を組み合わせることで、EO、IR、SAR 間のクロスモーダル画像変換における空間詳細とスペクトル精度を大幅に向上させたことを述べています。
この論文は、外部事前知識を階層的な辞書構造で効率的に活用し、パラメータ推定ネットワークを改良することで、学習型画像圧縮の符号化効率を大幅に向上させる「HiDE」という新しいフレームワークを提案しています。
本論文は、VGG19、Efficient-Net、ResNet50 の 3 つの CNN モデルと Bi-LSTM を組み合わせたハイブリッド機械学習モデルを提案し、脳 MRI 画像を用いて新生児の脳性麻痺を 98.83% の精度で早期検出可能であることを示しています。
本論文は、長視野の視覚言語モデルにおいて、最終的な正解率ではなく「時間的視覚 grounding(視覚入力との一貫性)」を定量化する指標が、分布外汎化性能を予測する強力な指標となり得ることを実証しています。
本論文は、意味情報に依存せず運動学的なねじれ同等性に基づいて剛体を定義する「MotionBit」概念と、それを評価する手動ラベル付きベンチマーク「MoRiBo」、そして学習不要のグラフベースセグメンテーション手法を提案し、これらが物理的相互作用の理解やロボティクスタスクにおける重要な基盤となることを示しています。
本論文は、X 線画像特有の幾何学的曖昧性や物理的減弱特性を考慮し、確率的な密度スケーリングにより不確実なガウスプリミティブのアンサンブルを構築して構造分散を最大化する視点を逐次選択する「Perturbed Gaussian Ensemble」という枠組みを提案し、スパースビュー CT 再構成の精度向上を実現するものである。