Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation
本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。
6643 件の論文
本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。
SceneTok は、既存の 3D 表現とは異なり、多視点入力から空間グリッドに依存しない圧縮されたトークン列を生成し、これを用いて高品質な新規視点レンダリングや高速な 3D シーン生成を実現する新しいトークナイザー手法を提案するものです。
本論文は、大規模な学習や最適化を不要とし、CLIP と unCLIP デコーダを活用してプロトタイプに基づく画像合成を行うことで、マルチモーダルデータ蒸留の効率性とアーキテクチャ間汎化能力を飛躍的に向上させる学習不要なフレームワークを提案しています。
One2Scene は、単一画像から没入型の探索可能な 3D 空間を生成するために、パノラマ生成、3D 幾何学的足場へのアップリフト、および新規視点生成という 3 つの段階的なタスクに問題を分解し、大規模なマルチビューデータセットで学習された幾何学的事前知識を活用して、既存の手法が抱える幾何学的歪みやノイズを克服する革新的なフレームワークです。
本論文は、テスト時トレーニング(TTT)における KV バインディングが単なる記憶メカニズムではなく、学習された線形アテンション演算子として再解釈できることを示し、これによりモデルの挙動を説明するだけでなく、アーキテクチャの簡素化や並列化による効率化を実現することを提案しています。
FedVG は、グローバル検証セットを用いて各クライアントモデルの一般化能力を層ごとの勾配ノルムで評価し、データ異質性によるクライアントドリフトを抑制して連合学習の性能を向上させる新しい勾配誘導型集約フレームワークを提案するものです。
FlowFixer は、スケールや視点の変化によって失われがちな細部を復元し、言語プロンプトの曖昧さを避けて視覚的参照から直接画像変換を行うことで、高忠実度な主題駆動生成を実現する新たなリファインメントフレームワークです。
本論文は、物理法則を考慮した画像編集の課題を解決するため、物理的状態遷移を予測する新たなフレームワーク「PhysicEdit」と大規模データセット「PhysicTran38K」を提案し、物理的妥当性と知識に基づく編集性能を大幅に向上させたことを示しています。
本論文は、静的なアノテーション、運動指向のナラティブ、包括的な要約という3段階の階層的な意味情報を用いてfMRI信号から一貫性のある動画を再構築する新手法「SemVideo」を提案し、CC2017およびHCPデータセットにおいて既存手法を上回る性能を達成したことを報告しています。
既存の物体検出モデルが前景の特徴に焦点を当て背景の文脈情報を軽視している課題を踏まえ、道路や森林など背景との関連性を活用することで COCO 検証セットにおいて最先端の性能を達成した「Association DETR」を提案する論文です。
本論文は、事前学習モデルと反射除去モデル間の意味的ギャップやデータラベルの不一致といった課題を克服するため、パラメータ効率型微調整やラベル生成、適応的周波数学習、動的エージェントアテンションを組み合わせた「GFRRN」を提案し、単一画像からの反射除去において最先端の性能を達成したことを示しています。
本論文は、テキストから生成される動画の空間的制約を強化するため、幾何学的指標「DSR-SCORE」を用いたゼロ次正則化直接選好最適化(DPO)を導入し、動的な空間関係の表現能力を飛躍的に向上させた自己改善フレームワーク「SPATIALALIGN」を提案するものである。
本論文は、テスト時に分布シフトに対処し、教師なしデータからテキストおよび視覚モダリティの知識を蓄積してマルチモーダルプロトタイプを適応的に更新する「WARM-CAT」という手法を提案し、新しいデータセット C-Fashion の導入と既存データセットの整備を通じて、構成ゼロショット学習において最先端の性能を達成したことを報告しています。
本論文は、IMU や自己運動によって引き起こされるイベントをリアルタイムで予測・抑制する初のフレームワークを提案し、セグメンテーション精度の大幅な向上と軽量な推論速度を実現するとともに、ビジョントランスフォーマーの推論加速や視覚オドメトリの精度向上など、下流タスクへの顕著な効果を実証しています。
本論文では、球対称な初期圧力分布を持つ光音響源から発生する音圧の空間時間的分布を記述する統一的な解析解を導出するとともに、代表的な分布に対する具体的な式や遠方近似を提示し、その実装コードを公開して光音響イメージングシステムの設計と信号解析に貢献しています。
本論文は、Qwen 2.5 Omni を基盤とした大規模マルチモーダルモデル「AV-LMMDetect」を提案し、音声と映像の統合分析を通じて既存手法を上回る深層偽造検出性能を達成したことを示すパイロット研究です。
本論文は、13,000 回以上の実世界ロボット操作データに基づく大規模な実証研究により、ロボットの模倣学習における行動空間設計が学習性能に決定的な影響を与えることを明らかにし、デルタ動作の予測や関節空間・タスク空間の適切な組み合わせが、制御の安定性と汎化性能の向上に寄与することを示しています。
本論文は、グラフィックレイアウト生成における人間の美的判断との整合性を高めるため、大規模な人間評価データセット「DesignSense-10k」と、既存のモデルを大幅に上回る性能を持つ報酬モデル「DesignSense」を提案し、これらが生成モデルの品質向上に実用的な効果をもたらすことを示しています。
SALIENT は、離散ウェーブレット係数を用いた周波数意識型の拡散モデルと学習可能な目的関数を導入することで、CT 画像における極端なクラス不均衡と長尾分布の問題を解決し、制御可能な合成データ生成を通じて検出精度を大幅に向上させる新しいフレームワークです。
この論文は、幾何学的コンピュータビジョンにおける基礎行列の互換性に関する未解決の問題を解決し、その多様性を記述する完全な多項式理想と、既知の制約を補完する新たな4次拘束条件を導出したことを報告しています。