WebChallenger: A Reliable and Efficient Generalist Web Agent
WebChallengerは、PageMemおよび、選択的注意、持続的記憶、そして手続き的流暢さにおける人間の認知的な利点を再現する3つのアーキテクチャ・メカニズムを導入することで、コスト効率の高い汎用的な既存モデルを用いて複数のベンチマークで最先端の性能を達成する、汎用的なウェブエージェント・フレームワークです。
原著者が当サイトのやさしい解説を確認した論文。
このページに掲載されている各論文については、少なくとも一人の原著者が当サイトのやさしい解説を確認し、内容の正確性を認めるか、または修正を依頼しその修正を私たちが反映しています。確認は各文への正式な承認を意味するものではありませんが、論文を書いた本人たちの目を通ったことを意味します。
568 件の論文を著者が確認済み · 31–40 / 568
WebChallengerは、PageMemおよび、選択的注意、持続的記憶、そして手続き的流暢さにおける人間の認知的な利点を再現する3つのアーキテクチャ・メカニズムを導入することで、コスト効率の高い汎用的な既存モデルを用いて複数のベンチマークで最先端の性能を達成する、汎用的なウェブエージェント・フレームワークです。
本論文は、Large Helical DeviceプラズマにおけるVMECとHINTの平衡計算を体系的に比較しており、両コードは低ベータでは一致するものの、高ベータ値においては、VMECの入れ子状の磁気面仮定では表現できないエッジのストカスティシティ(確率論的性質)や磁気面の崩壊をHINTが捉えるため、両者の間に乖離が生じることを明らかにしている。
本論文は、前身のプロジェクトよりも8倍大きな体積を持つ1,192個の宇宙論的シミュレーションを特徴とするCAMELSプロジェクトの第2世代を紹介し、35個のパラメータ空間を探索することで、これらより大きな体積がニューラルネットワークに基づくパラメータ推定を向上させる一方で、モード結合やパラメータの縮退により、その利得は劣線形であることを示している。
本論文は、新たな親測定(parent measurements)を通じて解析的な普遍的境界を導出し、それらの構成を二乗和最適化によって定式化し、さらに高次元量子ステアリングの認証におけるそれらの適用を実証することにより、有限次元量子系における測定不適合性の定量化を前進させるものである。
本論文は、主観的なLLMベースの評価を構造化された報酬とリビール・タグ付きの聞き取りメカニズムに置き換えることで、エージェント型レコメンダーシステムのための検証可能なベンチマークである-Recを導入し、現在の対話型エージェントにおいて、トップクラスのモデルでさえタスク制約を一貫して満たすことに苦慮するという、重大な信頼性のギャップを明らかにしている。
本研究は、大腸菌の走化性が分子拡散の物理的限界ではなく、信号処理における内部ノイズによって制限されており、細菌が理論的に可能な量よりも2桁少ない情報しかエンコードしていないことを示している。
本論文は、CiaoPPプリプロセッサ内におけるシェアリングおよび線形性解析のための最適な抽象演算子を実装およびテストすることにより、論理プログラムの静的解析における精度と性能のトレードオフを実験的に評価するものである。
本論文は、チューリングマシンの非停止性からの還元連鎖を提示し、また関連するいくつかの無限およびシフトされた変種の完全性を証明することにより、双無限ポスト対応問題(PCP)が算術的階層において完全であることを確立する。
本論文は、4つの状態遷移パイプラインと一連の運用スクリプトを通じて、流動的な人間とAIの協調的研究プロセスを、耐久性があり、署名可能かつ検証可能なアーカイブ成果物へと変容させるために設計された、ローカルかつ著者側のワークフローおよび分散アーキテクチャであるClawXivを紹介するものである。
本論文は、多数のビンが存在する疎なデータ領域において、ピアソンののような分割可能な統計量が効果的な適合度検定として機能するという一般的な仮定に異を唱え、既存の手法の限界を明らかにし、修正されたより強力な代替案および新しい分布フリー検定を提示する統一的な枠組みを提案するものである。