Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection
この論文は、大規模マルチモーダルモデルの憎悪的ミーム検出における性能と汎化能力を向上させ、敵対的攻撃への耐性や解釈性を高めるための堅牢な適応フレームワークを提案し、複数のデータセットで最先端の成果を達成したことを示しています。
5768 件の論文
この論文は、大規模マルチモーダルモデルの憎悪的ミーム検出における性能と汎化能力を向上させ、敵対的攻撃への耐性や解釈性を高めるための堅牢な適応フレームワークを提案し、複数のデータセットで最先端の成果を達成したことを示しています。
ViT の効率性を犠牲にすることなく汎用性を維持し、トークンの幅を調整して新しい「Jumbo トークン」を導入することで、精度と速度の両方を向上させる新しいアーキテクチャを提案する論文です。
この論文は、アラビア語の扇動的ミームと英語のヘイトミームの検出および説明生成を同時に改善するために、新しい大規模データセット「MemeXplain」と多段階最適化アプローチを提案し、既存の最先端手法を上回る性能を達成したことを報告しています。
本論文は、屋外空撮における視覚言語ナビゲーション(VLN)の研究を促進するため、多様なレンダリングエンジンと自動化ツールチェーンを活用して大規模データセットとベンチマーク「OpenFly」を構築し、キーフレームを考慮したエージェント「OpenFly-Agent」を提案するものである。
LLaVE は、標準的な InfoNCE 損失の限界を克服するために難易度重み付き対照学習を導入し、MMEB ベンチマークで SOTA 性能を達成するとともに、画像 - テキストデータからゼロショットで動画検索タスクにも強力に汎化する大規模マルチモーダル埋め込みモデルを提案するものです。
この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。
本論文は、セマンティックな高次元特徴とピクセルレベルの低次元特徴をそれぞれ独立した階層的なコードブックで表現する「SemHiTok」という新しいユニファイド画像トークナイザーを提案し、マルチモーダルな理解と生成の両方のタスクにおいて優れた性能を実現することを示しています。
本論文は、マスク画像生成モデルとマスク拡散モデルを単一の枠組みで統合し、トレーニングとサンプリングの設計空間を探索することで、少ない計算コストで最先端の性能を達成する新しいモデル「eMIGM」を提案しています。
本論文は、著作権侵害やプライバシー違反などの懸念に対処するため、拡散モデルから概念を効率的かつ高精度に削除する新たな手法「SPEED」を提案し、非対象概念の品質を損なわずに 100 個の概念をわずか 5 秒で削除可能であることを示しています。
本論文は、医療画像診断などの実世界応用において、機械学習システムの性能と公平性のトレードオフを包括的かつ直感的に評価し、意思決定を支援するモデル非依存の多目的評価フレームワーク「Fairical」を提案し、その有効性を示したものである。
この論文は、指定されたセグメンテーションマスクで定義された対象物とテキストプロンプトで記述された動作に基づいて、俳優が対象物と相互作用する動画を生成する「ターゲット認識型動画拡散モデル」を提案し、クロスアテンション損失の最適化を通じて人間と物体の相互作用を高精度に実現するとともに、ゼロショット 3D 動作合成や長期的な動画コンテンツ作成などへの応用可能性を示しています。
本論文は、複数のタスク間で生じる干渉を低減し、テスト時にエントロピー最小化を通じて特異方向を適動的に剪定する新たなモデル統合フレームワーク「AdaRank」を提案し、これにより多様なバックボーンやタスク数において最先端の性能を達成し、微調整済みモデルとの性能差を約 1% まで縮小することを示しています。
この論文は、マルチモーダル大規模言語モデルが推論する常識的知識を、数学的記号に基づいて計算可能な「解析的概念」を介して物理世界に接地させることで、ロボットが様々な可動物体を汎用的かつ正確に操作するための制御方針を導き出す手法を提案し、実世界およびシミュレーションでの実験によりその有効性を示したものです。
本論文は、SAR と光学画像など異なるセンサー間の非線形放射量差による課題を解決するため、単一ステップで画像変換を行う拡散モデルと多モーダル融合ネットワークを組み合わせた OSDM-MReg を提案し、高精度かつ高速なリモートセンシング画像の登録を実現するものである。
本論文は、5 つの公開データセットを統合し SMOTE と CLAHE による前処理を施したハイブリッドデータセットを用いて、VGG19 と ResNet50V2 を融合させた新しい深層学習モデル「VR-FuseNet」を提案し、91.824% の精度で糖尿病網膜症を分類するとともに、XAI 技術により臨床医が解釈可能な説明を提供するものである。
この論文は、機械学習の指標だけでなく、生態学や生物学における最終的な応用(個体数推定や視線方向の推定など)に直接影響を与えるアプリケーション固有の指標を用いて視覚モデルを評価する必要性を、チンパンジーと鳩の事例研究を通じて主張しています。
この論文は、データ分布間のワッサーシュタイン距離を、データ部分群や入力特徴量などの解釈可能な構成要素に帰属させるための、説明可能 AI に基づく新しい手法を提案し、その有効性を示すものです。
本論文は、オンラインデータに存在するノイズ対応の問題に対処するため、ノイズの不確実性をモデル化するキー特徴量セレクタと、負のサンプルの難易度を動的に調整する新しい損失関数を備えた DURA フレームワークを提案し、低・高ノイズ環境の両方においてテキストベースの人物検索性能を向上させることを示しています。
本論文は、敵対的学習で事前訓練されたトランスフォーマーが、追加の敵対的学習なしにクリーンなデモンストレーションからのコンテキスト学習を通じて、多様な下流タスクに対して普遍的な敵対的頑健性を発揮しうるという理論的示唆を初めて提示したものである。
本論文は、点雲補完における標準的な Chamfer Distance の対称的重み付けの限界を克服し、非対称な重み付け戦略によって大域的な構造完全性を優先する「Flexible-weighted Chamfer Distance(FCD)」を提案し、多様なデータセットとタスクにおいて点の凝集を抑制し、より均一で構造的に完全な点雲生成を実現することを示しています。