Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection
この論文は、拡散モデルや自己回帰モデルなど多様な生成モデルが共有する最終的なアーキテクチャ成分を悪用して実画像を「汚染」し、その特徴を学習させることで、未見の生成モデルに対しても高い汎化性能(平均精度 98.83%)を実現する AI 生成画像検出手法を提案しています。
3300 件の論文
この論文は、拡散モデルや自己回帰モデルなど多様な生成モデルが共有する最終的なアーキテクチャ成分を悪用して実画像を「汚染」し、その特徴を学習させることで、未見の生成モデルに対しても高い汎化性能(平均精度 98.83%)を実現する AI 生成画像検出手法を提案しています。
本論文は、FFA と ICGA の両方の眼科血管造影画像に対して、ハイパーネットワークに基づく適応的条件付け層(HaC)と証拠的不確実性学習に基づく信頼性予測スキーム(RaP)を導入した CLEAR-Mamba を提案し、既存手法を上回る汎用性と信頼性を実現したものである。
この論文は、スライス単位の構造検出を並列に行う検出ヘッドを統合し、その出力でセグメンテーション予測を制御するゲート付きマルチヘッド・トランスフォーマー・アーキテクチャを提案することで、解剖学的に存在しないスライスにおける偽陽性(ハルシネーション)を効果的に抑制し、放射線治療における自動セグメンテーションの信頼性と解剖学的妥当性を大幅に向上させることを示しています。
本論文は、推論過程で参照bounding boxの明示を強制し、大域・局所キャプションとの整合性を報酬として活用する強化学習フレームワーク「RegionReasoner」と、それを評価するための新しいベンチマーク「RegionDial-Bench」を提案し、検出・セグメンテーションタスクにおける多段階視覚推論の精度と空間的根拠付けを大幅に向上させることを示しています。
この論文は、WCAG2 の違反を検知し、元のデザインを維持しながら HTML を自動修正する「WebAccessVL」という視覚言語モデルを提案し、その手法が既存モデルを大幅に上回る高い精度でウェブサイトのアクセシビリティを改善できることを実証しています。
この論文は、長期動画生成におけるエラー蓄積の問題を、トレーニング不要で初期フレームを基準にサンプリング経路を補正する「Test-Time Correction(TTC)」という手法により解決し、既存のテスト時間最適化法よりも安定した高品質な 30 秒動画生成を実現することを提案しています。
この論文は、単一画像からの法線推定における 3 次元位置の不一致問題を解決するため、法線推定を画像生成モデルを用いたシェーディングシーケンス推定として再定義し、合成データで学習した RoSE という手法を提案し、実世界ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、経験再生、学習可能なリーキー・インテグレート・アンド・ファイア(LIF)ニューロンパラメータ、および適応型スパイクスケジューラを統合したエネルギー意識スパイク予算枠組みを提案し、フレームベースおよびイベントベースの両方のデータセットにおいて、精度向上とエネルギー効率の最適化を同時に実現するスパイクニューラルネットワークの継続学習手法を開発したものである。
この論文は、情報理論的観点からマルチモーダル学習におけるモダリティ間の競合を分析し、特徴とラベル間の総相関を最大化する新たな手法「TCMax」を提案することで、既存の手法を上回る分類性能を実現したことを示しています。
この論文は、拡散モデルの推論遅延を軽減しつつ中間軌道の構造情報を保持するために、教師の軌道の各離散ステップに対応する複数のブランチを備えた学生モデルを提案し、密な軌道アライメントを通じて生成品質を向上させる「B-DENSE」と呼ばれる新しいフレームワークを紹介しています。
この論文は、異なる動作インスタンス間の時間的整合性を考慮した空間 VQ-VAE とマスク付きトランスフォーマー、および運動学的制約ブロックを導入することで、物理的に妥当で一貫性のあるテキストからモーションへの生成を実現し、HumanML3D や KIT-ML において最先端の性能を達成する TCA-T2M というフレームワークを提案しています。
本論文は、臨床現場で利用可能な外部ガイダンスに依存せず、生成モデル自身が欠損状態を自己認識して推論する「CoPeDiT」という新しい 3D MRI 合成フレームワークを提案し、欠損モダリティやスライスの補完において最先端の手法を上回る高忠実度かつ構造的に整合性の高い結果を実現したことを報告しています。
本論文は、クラス共有 LoRA と画像固有 LoRA を組み合わせ、セマンティックなボスト手法とディリクレ分布に基づく混合生成を採用することで、データ不足領域において多様性と詳細さを両立した合成データを生成し、下流タスクの分類精度を向上させる「ChimeraLoRA」を提案するものである。
本論文は、sparse 教師ありセグメンテーション、知識に基づく制約推論、多基準意思決定分析という 3 つの手法を統合したニューロ記号フレームワーク「OrthoAI」を提案し、マウスピース矯正における 3D 歯のセグメンテーションと生体力学的妥当性の推論を自動化するものである。
この論文は、Grounding DINO 1.5 と YOLOv11 を検出器として、Segment Anything Model 2.1(SAM 2.1)を共有バックボーンに用いた二重パイプライン手法を提案し、鳥の画像セグメンテーションにおいてゼロショットおよび教師あり学習の両方で従来の手法を上回る性能を達成したことを報告しています。
本論文は、文書偽造検出のゼロショットベンチマーク「DOCFORGE-BENCH」を提案し、既存手法が事前学習済み重みのままでは閾値の較正失敗により実用できないことを示し、再学習ではなく閾値の適応が実運用におけるボトルネックの解決鍵であることを明らかにしています。
この論文は、トレーニング時に特権的な 4 次元情報(3D 点の軌跡予測)を活用して VLA モデルに物理的な世界動態の理解を付与する「Pri4R」を提案し、推論時のオーバーヘッドなしにロボット操作タスクの性能を大幅に向上させることを示しています。
本論文は、GAP9、STM32N6、Sony IMX500 の 3 つの代表的なプロセッサを用いたベンチマーク評価と包括的なレビューを通じて、超低電力エッジ AI プロセッサの設計動向と、特にインセンサー処理の技術的成熟度や実用的なトレードオフを明らかにしています。
この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。
この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。