The World Won't Stay Still: Programmable Evolution for Agent Benchmarks
本論文は、現実世界の動的な変化を反映したエージェントの適応性を評価するため、環境・データ・スキーマを統一的なグラフとして表現し、その変換を通じてスケーラブルかつ制御可能な環境進化を実現するフレームワーク「ProEvolve」を提案するものである。
7241 件の論文
本論文は、現実世界の動的な変化を反映したエージェントの適応性を評価するため、環境・データ・スキーマを統一的なグラフとして表現し、その変換を通じてスケーラブルかつ制御可能な環境進化を実現するフレームワーク「ProEvolve」を提案するものである。
本論文は、複雑な病変のセグメンテーションにおいて従来の視覚パターンマッチングから推論分析へパラダイムを転換し、Chain-of-Thought 推論とセグメンテーションを統合した新しいフレームワーク「CORE-Seg」と、そのための推論駆動型ベンチマーク「ComLesion-14K」を提案し、強化学習による適応的報酬メカニズムで最先端の性能を達成したことを報告しています。
この論文は、静的なベンチマークの限界を克服し、検証エージェントと専門家の監査による反復的な改善プロセス(AtS)を通じて事実性の評価精度を向上させる「DeepFact」という新しいフレームワークとベンチマークを提案するものです。
この論文は、BERT による感情分析とノード・トランスフォーマー・アーキテクチャを統合し、株式間の依存関係や市場のノイズを考慮することで、従来の ARIMA や LSTM などのモデルを上回る精度で株式価格を予測する新しい枠組みを提案し、その有効性を実証したものである。
この論文は、画像レベルの類似性に依存せず、指示と生成画像の間の意味的乖離とその安定性を分析することで、多様なバックドア攻撃を検出可能な新しいブラックボックス検出フレームワーク「BlackMirror」を提案するものです。
本論文は、Rectified Flow に着想を得た「RAC(Rectified Flow Auto Coder)」を提案し、従来の VAE を置き換えることで、多段階復号と双方向推論を実現し、生成品質を向上させながら計算コストを約 70% 削減することを示しています。
この論文は、大規模言語モデル(8B Llama)において、同じ著者の他のテキストを文脈として扱う「HuLM」タスクや「HuFT」手法を用いて生態学的誤謬に対処することで、標準的な微調整よりも下流タスクの性能を向上させられることを示しています。
この論文は、セグメンテーションネットワークを用いて特徴マップを精緻化し、Deep Residual Network と Unet 類似アーキテクチャを組み合わせる「Residual Masking Network」を提案し、FER2013 および VEMO データセットで最先端の精度を達成したことを述べています。
この論文は、LLM ベースのコーディングエージェントの失敗を、ドメイン固有の分類体系と自動注釈、ハイブリッド説明生成器を用いて構造化された可視化や自然言語による実用的な洞察に変換する XAI 手法を提案し、ユーザーが失敗の根本原因を特定する速度と修正の精度を大幅に向上させることを実証しています。
この論文は、画像の情報密度に応じて特異値スペクトルに基づきトークン予算を動的に決定する「E-AdaPrune」を提案し、学習パラメータを追加することなく視覚言語モデルの効率と推論精度を向上させる手法を提示しています。
この論文は、個人の特性と状況的要素を統合した理論に基づく解釈可能なモデルを開発し、ソーシャルメディアデータから精神的健康を予測・分析することで、計算機モデルと心理学的理論の融合が文脈に敏感で人間に理解しやすい動的な精神状態の評価に有効であることを示しています。
この論文は、プライバシーやデータ異質性の制約下で分散学習を行う際に、正規化統計量から擬似データを合成し、多様なモデルから知識を蒸留する軽量な手法「DMM」を提案し、既存のモデルマージ手法を上回る性能を達成することを示しています。
本論文は、3 次元人体骨格データを視覚的セマンティクスに基づいて画像形式に変換する「Skeleton-to-Image Encoding (S2I)」を提案し、これにより大規模視覚事前学習モデルを骨格表現学習に適用可能にし、多様なデータソースからの骨格データを統一的に扱えるようにすることで自己教師あり学習の効果を高めたことを示しています。
この論文は、2 枚の画像間の静的な比較に留まらず、中間フレームの生成と学習可能なクエリを用いて変化の「手順」を動的にモデル化する新しいフレームワーク「ProCap」を提案し、変化キャプション生成の精度向上を実現するものです。
この論文は、R&D やマーケティングなどの専門分野を担う 8 つの仮想エージェントからなる大規模言語モデル(LLM)ベースのマルチエージェントシステムを提案し、技術的・市場的実現可能性の観点から新製品コンセプトを客観的に評価することで、従来の専門家主導アプローチの課題を克服し、意思決定を支援できることを実証したものである。
この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査(AOI)システムの開発と産業への応用を提案するものである。
この論文は、オフロード走行という長期的かつ報酬信号が希薄な課題に対処するため、教師あり軌道と探索軌道を組み合わせた新しい方策勾配手法「TADPO」を提案し、シミュレーションから実車へのゼロショット転移に成功した RL ベースの全スケールオフロード走行システムを世界で初めて実装したことを報告しています。
本論文は、非同期かつ不均等な間隔で観測される時系列データ(ISTS)の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。
本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。
この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。