Enhancing Web Agents with a Hierarchical Memory Tree
この論文は、ウェブエージェントの汎化能力を向上させるため、高レベルの論理計画と具体的な行動詳細を分離する階層的メモリツリー(HMT)を提案し、Mind2Web や WebArena などのベンチマークで既存の平らなメモリ構造を凌駕する性能を実証しています。
7055 件の論文
この論文は、ウェブエージェントの汎化能力を向上させるため、高レベルの論理計画と具体的な行動詳細を分離する階層的メモリツリー(HMT)を提案し、Mind2Web や WebArena などのベンチマークで既存の平らなメモリ構造を凌駕する性能を実証しています。
この論文は、数十年にわたる地球規模のサブメートル・サブ秒精度の 4 次元空間時間位置符号化「Earth4D」を導入し、自己教師ありマルチモーダル世界モデル「DeepEarth」を構築して生態系予測の最先端性能を達成したことを報告しています。
この論文は、マルチ画像タスクにおける大規模視覚言語モデルの幻覚を軽減するため、画像間の注意メカニズムを調整し、真の視覚証拠に基づく選好学習を行う構造化フレームワーク「CAPL」を提案し、マルチ画像の性能向上と単一画像タスクへの汎化能力の維持を実現したことを示しています。
この論文は、LLM 支援による対話型スクリプトと汎用的なアニメーション記述子を活用し、専門知識を持たない科学者が汎用ワークステーションで 1PB を超えるペタスケールの時変データを迅速に 3D アニメーション化できるフレームワークを提案し、その有効性を NASA の気候・海洋データを用いたケーススタディで実証したものである。
本論文は、限られたラベル付きデータのみで産業機械の故障診断を可能にするため、物理空間と仮想空間の双方向プロトタイプアンカリングと多周期性学習を組み合わせたデジタルツイン支援の新しい手法を提案し、非同期モータの実験でその有効性を検証したものである。
MedSteer は、拡散トランスフォーマーのクロスアテンション層における活性化操作を用いて、トレーニング不要で解剖学的構造を維持したまま病変概念のみを反転させる対照的エンドスコピック画像合成フレームワークを提案し、既存手法を上回る構造保存性と臨床概念の転換精度を達成したことを示しています。
本論文は、GPT-4 を活用した対話システムによるインタビューからユーザーレビューを生成する手法を提案し、システム利用者からの評価向上、編集時間の短縮、そして人間が執筆したレビューよりも読者にとって有用であるという結果を実証したものである。
本論文は、大規模推論モデル(LRM)の思考過程における冗長性を定量化し、推論効率を評価するためのグラフ駆動型フレームワーク「CoTJudger」を提案し、自由形式の思考連鎖を依存グラフに変換して最短有効経路を抽出することで、モデルの推論能力と計算の無駄を明確に区別する手法を確立したことを述べています。
この論文は、数学的推論タスクとテストハックの両方が可能な環境「Countdown-Code」を提案し、SFT 段階でのわずかな報酬ハッキングデータの混入が RL 段階での誤った行動の一般化を招くことを実証することで、合成 SFT データの厳密な検証の必要性を浮き彫りにしています。
本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。
この論文は、Unity 環境における構造的制約下でゴールプレイパターンに基づいた実行可能ゲームを生成する際、LLM の直接生成よりも人間が作成した中間表現(IR)を用いたパイプラインの方が、コンパイル成功率の向上や構造的な接地性の問題の軽減に有効であることを、26 種類のゴールパターンを用いた実証実験を通じて示しています。
この論文は、生成モデルの推論遅延とユーザー・アイテム間の相互作用不足という課題を解決するため、半自己回帰生成とオンライン知識蒸留を組み合わせた効率的なパーソナライズド再ランク付けフレームワーク「PSAD」を提案し、大規模データセットでの実験によりその高性能と高効率を実証したものである。
この論文は、物理的変換下での物理量の不変性を評価するベンチマーク「ConservationBench」を用いた大規模実験により、現在のビジョン言語モデル(VLM)が動的なシーンにおける物理的変換に関する推論能力を欠き、視覚情報よりもテキストの事前知識に依存して性能が低下することを示しています。
本論文は、LLM による対話要約と手動設計されたペルソナ情報を活用することで、AIWolfDial 2024 向けに開発された狼人間ゲーム AI エージェントの発言の一貫性とキャラクターの維持を向上させたことを報告しています。
この論文は、人間、スクリプト、AI エージェントを区別するために、認知と処理の非対称的な難易度を利用した時間制約付き検証ゲーム「aCAPTCHA」を提案し、自律型 AI エージェントの存在がもたらす新たなセキュリティ課題に対する解決策を提示しています。
本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。
既存の感情認識手法が捉えきれない複雑な感情ニュアンスを自然言語で記述する新たなタスク「会話における感情書き起こし(ETC)」を提案し、日本語の対話データセットとベンチマークを構築して、明示的・暗黙的な感情状態の理解を促進する研究基盤を提供しています。
この論文は、複雑な自然言語クエリに対するオープンドメインの質問応答を可能にするため、細粒度の型付きクエリ分解とグローバルな接続性認識を組み合わせたテーブル検索手法「DCTR」を提案し、その有効性を検証したものです。
この論文は、推論の各ステップでモデルの内部確信度を最大化する「思考レベルの確信最大化」アプローチを提案し、既存の推論時拡張手法よりも少ない計算コストで数学的推論タスクの精度を向上させることを実証しています。
この論文は、グラフニューラルネットワークを用いて SAT ソルバの初期分岐順序を学習・予測する手法を提案し、ランダムおよび疑似産業ベンチマークで大幅な高速化を実現したが、動的ヒューリスティックが初期値を上書きしやすく予測が困難な複雑な産業インスタンスでは効果が限定的であることを示しています。