TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers
本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。
1466 件の論文
本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。
この論文は、ドローン画像から植物シミュレーションの構成パラメータを生成するために、コンテキスト学習を活用したビジョン言語モデル(VLM)を初めて導入し、合成データと実世界のデータを用いてその性能と限界を評価した研究です。
本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。
本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。
この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。
本論文は、拡散トランスフォーマーにおけるスパースアテンションの計算コスト削減と情報損失の両立を可能にするため、クラスタセントロイドを用いたパラメータ不要の線形補償と、補償誤差を推定するエラー感知ルーティングを組み合わせた「SVG-EAR」を提案し、動画生成の品質を維持しつつ大幅な高速化を実現したものである。
本論文は、手術室の無菌環境やワークフローを乱すことなく、ガウススプラッティングに基づくマーカーレスな自動手眼較正フレームワーク「SurgCalib」を提案し、da Vinci 手術ロボットにおける高精度なツール位置推定を実現したものである。
本論文は、3D ガウススプラッティングの学習において、損失が飽和しているビューの逆伝播を適動的にスキップする「SkipGS」を提案し、再構成品質を維持しつつ学習時間を最大 23.1% 削減する手法を提示しています。
本論文は、印刷物の真正性を判定するために、元のテンプレートと印刷されたコピー検出パターン、およびプリンター固有のシグネチャを統合的に活用し、ControlNet を拡張した拡散モデルに基づく新しい認証フレームワークを提案し、従来の手法や既存の深層学習アプローチを上回る性能と未知の偽造への汎化能力を実証したものである。
本論文は、事前学習された正規化フロー(NF)モデルから導出されたカップリングを蒸留して学生モデルを訓練する「正規化フローマッチング(NFM)」を提案し、独立カップリングや最適輸送カップリングを用いた既存のフローモデルを凌駕する性能と、教師モデル自体の性能向上を実現することを示しています。
この論文は、畳み込みニューラルネットワーク(CNN)の幾何学的構造を正確に反映し、クロスエントロピー損失のヘッシアン行列のトレースの閉形式解を導出することで、モデルの汎化性能を評価し、アーキテクチャや訓練の設計を支援する新たな平坦性指標を提案しています。
この論文は、状態空間モデルと弱信号注意機構を統合した深層学習フレームワーク「WS-Net」を提案し、ハイパースペクトル画像の弱信号の崩壊を解決して、低 SNR 条件下でも主要なエンドメンバーと弱エンドメンバーの両方に対して高精度な豊度推定を実現することを示しています。
この論文は、拡散モデルの空間ドメインにおける限界を克服し、構造化されたスペクトル摂動と畳み込み定理を活用したフルプロダクトU-Netを導入することで、単一画像からの雨除去において高性能かつ効率的な「SpectralDiff」フレームワークを提案するものである。
この論文は、9,860 枚の画像で学習した強化された YOLOv8 双モデルフレームワークを用いて、火災・煙の検出と周囲物体との距離推定を統合し、定量的なリスク評価スコアを生成する、工場の現場向けインテリジェントな火災ハザード推定システムを提案しています。
本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。
OmniEdit は、事前学習済みモデルの教師あり微調整に依存せず、FlowEdit の編集シーケンスを目標シーケンスに置換することでバイアスを排除し、確率的要素を除去して滑らかな編集軌道を確立する、トレーニング不要のリップシンクおよび音声・映像編集フレームワークを提案するものです。
この論文は、物理法則に基づく因果関係を明確化するための「物理駆動型イベント連鎖推論」と、イベント間の連続性を保つ「遷移認識型クロスモーダルプロンプティング」という 2 つのモジュールを導入することで、現実の物理現象を忠実に再現する動画生成を実現する新たな枠組みを提案しています。
本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下(モダリティギャップ)を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。
本論文は、医療画像の分布シフト下での表現学習を改善するため、診断感度やクラス内代表性に基づくデータ順序付けと非対称コントラスト損失を組み合わせた「知識駆動型認知編成(MedKCO)」を提案し、多様な医療視覚言語タスクで既存手法を大幅に上回る性能を実証したものです。
この論文は、複雑な動きを「静止」「剛体運動」「非剛体運動」の 3 つに分解し、生成前に動きの法則を推論して構造化する「計画先行」のフレームワークを提案することで、既存の手法が見過ごしていた多様な動きの指定を可能にするトレーニングフリーのコンポーザショナル動画生成手法を構築したことを示しています。