Spectral-Structured Diffusion for Single-Image Rain Removal
この論文は、拡散モデルの空間ドメインにおける限界を克服し、構造化されたスペクトル摂動と畳み込み定理を活用したフルプロダクトU-Netを導入することで、単一画像からの雨除去において高性能かつ効率的な「SpectralDiff」フレームワークを提案するものである。
2768 件の論文
この論文は、拡散モデルの空間ドメインにおける限界を克服し、構造化されたスペクトル摂動と畳み込み定理を活用したフルプロダクトU-Netを導入することで、単一画像からの雨除去において高性能かつ効率的な「SpectralDiff」フレームワークを提案するものである。
この論文は、9,860 枚の画像で学習した強化された YOLOv8 双モデルフレームワークを用いて、火災・煙の検出と周囲物体との距離推定を統合し、定量的なリスク評価スコアを生成する、工場の現場向けインテリジェントな火災ハザード推定システムを提案しています。
本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。
OmniEdit は、事前学習済みモデルの教師あり微調整に依存せず、FlowEdit の編集シーケンスを目標シーケンスに置換することでバイアスを排除し、確率的要素を除去して滑らかな編集軌道を確立する、トレーニング不要のリップシンクおよび音声・映像編集フレームワークを提案するものです。
この論文は、物理法則に基づく因果関係を明確化するための「物理駆動型イベント連鎖推論」と、イベント間の連続性を保つ「遷移認識型クロスモーダルプロンプティング」という 2 つのモジュールを導入することで、現実の物理現象を忠実に再現する動画生成を実現する新たな枠組みを提案しています。
本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下(モダリティギャップ)を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。
本論文は、医療画像の分布シフト下での表現学習を改善するため、診断感度やクラス内代表性に基づくデータ順序付けと非対称コントラスト損失を組み合わせた「知識駆動型認知編成(MedKCO)」を提案し、多様な医療視覚言語タスクで既存手法を大幅に上回る性能を実証したものです。
この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。
この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。
この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。
本論文は、現実世界で頻繁に発生するモダリティの欠損やノイズに対処するため、信頼性推定とプログレッシブな相互作用により不完全なマルチモーダル感情分析を高度化する「PRLF」という新しいフレームワークを提案し、主要なデータセットにおいて最先端の性能を達成したことを報告しています。
この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成(UNG)」モジュールと、マルチモーダル大規模言語モデル(MLLM)を用いた「品質認識事前知識(QAP)」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。
本論文は、SegFormer 変換器を用いて HR-pQCT 画像から骨および周囲軟組織を自動セグメント化し、抽出した放射線学的特徴量を用いた骨粗鬆症の分類が、従来の骨ベースのモデルよりも高い精度を達成し、軟組織の評価が疾患検出に重要であることを示した研究です。
本論文は、画像の回転に対する不変性を欠く既存のビジョン用 Mamba アーキテクチャの課題を解決するため、回転等変性を組み込んだ初のモデル「EQ-VMamba」を提案し、理論的な等変性の保証と、分類・セグメンテーション・超解像などの多様なタスクにおける高い性能とパラメータ効率の向上を実証しています。
本論文は、6G ネットワークにおける分散学習の課題を解決するため、ネットワーク状態を認識してタスク目標を行動に変換する「エージェント型 AI」を制御層として導入し、クライアント選定やリソース割り当てなどの最適化を自律的に行う統合システムを提案し、その有効性を示したものである。
この論文は、低照度環境における RGB-T セマンティックセグメンテーションのロバスト性を向上させるため、融合とモダリティ適応を単一のネットワークで統合し、欠損信号に対しても頑健な推論を可能にする「RTFDNet」という新しいアーキテクチャを提案しています。
RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。
この論文は、広視野・高ダイナミックレンジの条件に対応するパッチ単位の学習と非線形変換を導入して改良した深層学習モデル「POLISH」を提案し、シミュレーションデータを用いた検証により、従来の CLEAN 法に比べて重力レンズ発見の感度が 10 倍向上することを示しています。
画像復元において、Mamba モデルが抱える空間トポロジーの破綻と長距離依存性の減衰という課題を解決するため、幾何学的分割と対称なショートカット経路を導入した階層的状態空間モデル「Progressive Split-Mamba」を提案し、超解像やノイズ除去などのタスクで既存モデルを上回る性能を示した。
本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。