Training-Free Coverless Multi-Image Steganography with Access Control
この論文は、拡散モデルの潜在空間融合とランダム基底メカニズムを活用し、既存のトレーニング不要なカバレス隠蔽法を凌駕する画質、多様性、耐ノイズ性、そしてステガノ分析への耐性を備えつつ、ユーザーごとのアクセス制御を可能にする新しいフレームワーク「MIDAS」を提案するものである。
2775 件の論文
この論文は、拡散モデルの潜在空間融合とランダム基底メカニズムを活用し、既存のトレーニング不要なカバレス隠蔽法を凌駕する画質、多様性、耐ノイズ性、そしてステガノ分析への耐性を備えつつ、ユーザーごとのアクセス制御を可能にする新しいフレームワーク「MIDAS」を提案するものである。
ICDAR 2025 における複雑なレイアウトを持つ文書画像の機械翻訳コンペティションは、OCR 不要・OCR 利用の 2 つのトラックで 69 チームが参加し、大規模モデルが複雑な文書画像の翻訳において有望な新たなパラダイムを確立したことを示す結果を報告しています。
この論文は、YOLO 系オブジェクト検出器のニューラルアーキテクチャ探索における高コストな評価問題を解決するため、COCO-mini 上で学習した 1,500 個のアーキテクチャと、高性能領域に特化して自己進化するメカニズムにより精度を向上させた LightGBM 代理モデルを組み合わせた、初の YOLO 向け代理ベンチマーク「YOLO-NAS-Bench」を提案し、公式 YOLO バイアスを超えた高性能アーキテクチャの発見を実証しています。
本論文は、DiT-XL/2 の FLOPs の 50% 未満で同等の性能を達成し、さらに 4 GPU 環境でのトレーニングを可能にする「FCDM」と呼ばれる完全畳み込み拡散モデルを提案し、現代の畳み込み設計が拡散モデルのスケーリングにおいて効率的かつ競争力のある代替手段となり得ることを示しています。
この論文は、向き付き物体検出の課題を解決し、リアルタイム性と高精度を両立する初の検出トランスフォーマー「RiO-DETR」を提案し、主要なデータセットで新たな速度と精度のトレードオフを確立したことを報告しています。
この論文は、異なるドメインのレイアウト構造やラベル付けスタイルの差異を考慮し、記述知識を手がかりとしてドメイン固有のプロンプトを生成する「PromptDLA」という新しいドメイン認識型プロンプターを提案し、複数の主要なドキュメントレイアウト分析データセットにおいて最先端の性能を達成したことを示しています。
CIGPose は、視覚的コンテキストに起因する偽の相関を構造的因果モデルに基づいて特定し、予測不確実性を用いた因果介入モジュールと階層的グラフニューラルネットワークを組み合わせることで、解剖学的に妥当な全身ポーズ推定を実現し、COCO-WholeBody ベンチマークで新たな最先端性能を達成するフレームワークです。
この論文は、メタ学習による事前学習と、テスト時のデータ特性に応じた学習率や更新頻度を動的に調整するデータ適応型メカニズムを導入することで、分布シフト下における軌道予測の性能を大幅に向上させる手法「MetaDAT」を提案しています。
この論文は、認識の不完全さや物体カテゴリの時間的変化といった現実世界の課題に対処するため、新しい物体クラスが逐次導入される「オープンワールド運動予測」という新たな設定を提案し、擬似ラベリングと視覚言語モデル、そしてクエリ特徴量分散に基づくリプレイサンプリングを組み合わせたエンドツーエンドのクラス増分学習フレームワークを構築し、忘却を抑制しつつ新規クラスへの適応とゼロショット転送を実現したことを示しています。
本論文は、医療画像診断における単一ビュー内の異常間の依存関係と複数ビュー間の動的変化を同時にモデル化し、欠損データにも頑健な新しいグラフベースの学習フレームワーク「GIIM」を提案し、その有効性を CT、MRI、マンモグラフィーなど多様な画像モダリティで実証したものである。
この論文は、臨床ガイドラインの更新に柔軟に対応し、再学習なしでゼロショットで放射線治療の標的体積を自動描画する新しい AI エージェント「OncoAgent」を提案し、その性能が教師ありモデルと同等でありながら医師からの評価も高いことを示しています。
本論文は、視覚エンコーダの解凍による知覚性能の低下と長期計画における不安定性という課題を解決するため、自己アンカー型知覚制約とオラクル指導軌道最適化を統合した新しい協調的知覚・計画蒸留フレームワーク「EvoDriveVLA」を提案し、オープンループおよびクローズドループ評価の両方で最先端の性能を達成したことを報告しています。
既存の手術室シーングラフが抱える構造的な限界を克服するため、本論文は、手術室の複雑な多様体幾何学と高次関係を本質的に保持する新しいトポロジカルな表現「TopoOR」を提案し、多様なモダリティを統合した単一の潜在空間に落とし込むことなく、滅菌違反検出やロボット動作予測などの安全上重要な推論において従来の手法を上回る性能を実現することを示しています。
本論文は、19 世紀の複雑な二言語レイアウトと劣化したポリトニック文字を特徴とする『パトロロギア・グラエカ』の未デジタル化巻を対象に、YOLO と CRNN を組み合わせた専用パイプラインにより高精度な OCR を実現し、約 600 万トークンの注釈付きコーパスをオープンリリースするとともに、ノイズの多いポリトニック・ギリシャ語の OCR における新たなベンチマークを確立したことを報告するものである。
本論文は、地球観測における視覚言語モデル(VLM)の性能を包括的に評価するための新しいベンチマーク「OmniEarth」を提案し、知覚・推論・頑健性の 3 つの次元で 28 のタスクを定義し、既存モデルが地理空間的に複雑なタスクにおいて依然として課題を抱えていることを示しています。
本論文は、視覚トークンの冗長性を削減しつつ本質的な情報を保持するために、意味的クラスタリングとグループ内非最大値抑制を組み合わせたトレーニング不要の手法「PruneSID」を提案し、LLaVA シリーズなど多様な VLM において既存手法を上回る高精度と高速推論を実現したことを報告するものです。
この論文は、自己注意エンコーディングと座標保持融合を用いたコンポーネント意識型の自己洗練フレームワークを提案し、既存の GAN や拡散モデルを上回る高忠実度かつ高品質なスケッチから画像への生成を実現するものである。
本論文は、時間的依存関係の活用不足と露出バイアスを解決するため、非対称な生成戦略と暗黙的なオプティカルフローモデリングを組み合わせた「対角蒸留(Diagonal Distillation)」を提案し、高品質な動画ストリーミング生成をリアルタイム(最大 31 FPS)で実現する手法を開発しました。
本論文は、事前学習されたビジョン・言語モデルの知識を維持しつつ少量データで効果的に適応させるため、プロンプトの進化経路を明示的に制御し、方向性を保持しながら更新を行う「EvoPrompt」という新しいフレームワークを提案するものである。
本論文は、手術ビデオ理解における組織やタスクの多様性という課題に対処するため、言語ガイダンスを用いたチャネル選択とハイパーアグリゲーションを導入し、ロボット支援低侵襲手術のセグメンテーションと深度推定を統合的に学習するマルチタスク連合学習フレームワーク「SurgFed」を提案し、複数の公開データセットで最先端の性能を達成したことを示しています。