M: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval
本論文は、長期的な Web タスクにおける推論能力と計算効率の課題を解決するため、動的な軌道要約と外部インサイト検索を組み合わせたトレーニング不要の双層メモリ機構「M」を提案し、複数のベンチマークで既存手法を上回る性能向上とトークン削減を実現したことを報告しています。
5856 件の論文
本論文は、長期的な Web タスクにおける推論能力と計算効率の課題を解決するため、動的な軌道要約と外部インサイト検索を組み合わせたトレーニング不要の双層メモリ機構「M」を提案し、複数のベンチマークで既存手法を上回る性能向上とトークン削減を実現したことを報告しています。
本論文は、病理画像の階層的な関係を考慮し、双方向特徴統合と専用の損失関数を導入した階層分類フレームワーク「HiClass」を提案することで、胃生検画像の粗粒度・細粒度両方の分類性能を向上させたことを示しています。
本論文は、マルチモーダル大規模言語モデルにおける視覚トークンの分析手法「EmbedLens」を提案し、入力段階で画像固有の意味を担う「生トークン」のみが重要であり、内部視覚計算の大半は冗長であることを明らかにすることで、トークン剪定や中層への直接注入による効率的なモデル設計の指針を示しています。
本論文は、視覚的質問応答におけるハルシネーションを軽減するため、モデル内部の知識への信頼度を動的に評価して外部情報の利用を制御する「MMA-RAG」という新しいマルチモーダル適応型 RAG 手法を提案し、複数のデータセットで性能向上を実証したものである。
本論文は、既存のステレオ動画データを活用した大規模な学習データ構築と、アーキテクチャ変更なしに GRPO と時空推論チェーン(ST-CoT)を組み合わせた効率的な後学習戦略により、純粋な 2D 画像入力から 4 次元時空の理解と推論を可能にする MLLM-4D を提案し、最先端の性能を達成したことを示しています。
この論文は、従来の Vision Transformer が抱える二次的な計算量の問題を解決し、自己教師あり学習によるトークン圧縮や双方向スキャン戦略を導入することで、ImageNet 分類で高い精度を維持しつつ、DeiT-T と比較して計算量やメモリ使用量を大幅に削減した新しい効率的かつ表現力豊かな視覚表現学習モデル「Vision-TTT」を提案するものです。
この論文は、拡散過程における領域ごとの収束パターンの不均一性を活用し、学習不要の適応的トークンスケジューリングにより生成品質を維持しつつ最大 2.4 倍の高速化を実現するフレームワーク「Jano」を提案するものです。
本論文は、非同期オンライン強化学習フレームワークと利得に基づくランキング選好最適化(ARPO)アルゴリズム、および対角線認識混合トークン化と光線ベースの報酬を組み合わせた Mesh-Pro を提案し、3D メッシュ生成における訓練効率と生成品質を大幅に向上させたことを示しています。
本論文は、スパイキングトランスフォーマーの計算および記憶オーバーヘッドを削減しつつ性能を維持するために、トークンの重要度に基づくヒューリスティックな時空間情報保持基準とブロックレベルの早期停止戦略を採用した「TP-Spikformer」というトークンプルーニング手法を提案し、多様なアーキテクチャやタスクにおいてその有効性を示すものである。
この論文は、画像のわずか 1.2%(7 パッチ)を変更するだけで、最先端の画像キャプション生成モデルを任意のテキスト(差別的な内容やフィルタ回避用語を含む)に誘導できる汎用的な敵対的攻撃「CaptionFool」を提案し、視覚言語モデルの深刻な脆弱性を明らかにしています。
本論文は、小規模な医療データセットにおける非対 CBCT-CT 変換の安定性と精度を向上させるため、DINOv3 エンコーダとグローバル CT メモリバンクを用いて検索ガイド擬似ペアを構築する「検索拡張フローマッチング(RAFM)」を提案し、SynthRAD2023 ベンチマークで既存手法を上回る性能を実証したものである。
本論文は、従来の 2D 解析や単一データ源の限界を克服し、連続スライスの 3D 空間情報と多様な臨床データを統合する「MIMD-3DVT」という新たな 3D ビジョン・トランスフォーマー手法を提案し、アルツハイマー病の分類において 97.14% の高い精度を達成したことを報告している。
本論文は、既存の評価手法の限界を克服するため、10 次元の能力指向ベンチマーク「M-JudgeBench」を提案し、MCTS を駆使したデータ生成フレームワーク「Judge-MCTS」を用いて高品質な判断モデル「M-Judger」を構築・検証することで、マルチモーダル大規模言語モデルの判断能力評価とトレーニングの新たな基盤を確立したものである。
この論文は、動画レベルの教師信号のみを用いた弱教師あり動画異常検出の課題を解決するため、異常のセマンティクスを学習し、類似する正常・異常行動を区別する「LAS-VAD」という新しいフレームワークを提案し、XD-Violence および UCF-Crime データセットにおいて最先端の性能を達成したことを報告しています。
本論文は、手術室環境におけるキャリブレーションの不安定性がもたらす幾何学的不一致を解消し、単一のグローバルスケールを持つ整合的なカメラ設定を構築する「Multi-view Metric Geometry Rectification」モジュールと、これに基づく遮蔽に強い 3 次元ポイント追跡を組み合わせた「Geometry OR Tracker」を提案し、MM-OR ベンチマークにおいて深度不一致を 30 倍以上削減して追跡精度を大幅に向上させることを示しています。
本論文は、有害な意味を複数の視覚的要素に分散させ、画像間の推論を通じて段階的に再構成することで、最先端のマルチモーダル大規模言語モデルのセキュリティメカニズムを回避し、平均攻撃成功率 81.46% を達成する新しいマルチモーダル脱獄フレームワーク「MIDAS」を提案しています。
本論文は、マルチモーダルモデルのテスト時適応において、バイアス付きモダリティの可塑性とバイアスなしモダリティの安定性を、特徴次元間の冗長性の差異に基づいて診断し、非対称なアダプター構造を用いてそれぞれに最適化された更新戦略を適用する「DASP」という新たなフレームワークを提案し、既存手法を大幅に上回る性能を実現したことを示しています。
本論文は、創薬や教育などへの応用を視野に、マイクロスケールのシミュレーション評価基準「MicroWorldBench」と高品質データセット「MicroSim-10K」を構築し、これらを用いて生物学的メカニズムを正確に再現する動画生成モデル「MicroVerse」を開発したことを報告しています。
本論文は、既存の視覚言語行動モデルが言語指示を十分に理解できていないという課題を明らかにし、これを診断するための新しいベンチマーク「LangGap」を提案するとともに、データ拡張による部分的な改善と、言語の多様性に対するモデルの根本的な限界を示しています。
本論文は、画像、テキスト、音声の各モダリティにおける多段階の計数能力を包括的に評価するための統一ベンチマーク「UNICBench」とその評価ツールキットを提案し、45 の最先端マルチモーダル大規模言語モデルの性能を厳密に検証することで、推論や難易度の高いタスクにおける顕著な課題を浮き彫りにしています。