Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents
この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。
6871 件の論文
この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。
この論文は、畳み込みニューラルネットワーク(CNN)のプーリング層やストライドが 1 より大きい層におけるデータ量減少によるハードウェア利用率の低下を解消し、信号のインターリーブやハードウェアユニットの共有、適切な並列化によって MobileNet などの複雑な CNN を単一の FPGA 上で高スループットかつ高効率に推論できる、データレートに配慮した連続フロー型アーキテクチャを提案するものである。
本論文は、瞬間速度ではなく平均速度の視点を導入し、キャッシュされたヤコビ行列 - ベクトル積を活用して局所誤差の蓄積を抑制するトレーニング不要の「MeanCache」フレームワークを提案し、FLUX.1 や HunyuanVideo などの大規模生成モデルにおいて、画質を維持しつつ最大 4.56 倍の推論高速化を実現することを示しています。
本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。
この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。
本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M(リアルタイム整合報酬モデル)」という軽量フレームワークを提案しています。
この論文は、ランクとスコアの組み合わせおよび認知的多様性を活用した「組合せ融合分析(CFA)」という新しいモデル融合手法をビットコイン価格予測に応用し、MAPE 0.19% という優れた性能で既存の個別モデルや他の予測手法を上回る結果を示したことを報告しています。
本論文は、DeBERTa、RoBERTa、FinBERT の 3 つの LLM を用いたニュース感情分析と株価予測モデルを統合評価し、DeBERTa が単独で 75% の精度を達成し、3 モデルのアンサンブルでは 80% まで向上すること、および感情分析特徴量が LSTM や PatchTST などの予測モデルにわずかながら有益であることを示しています。
この論文は、従来の SGD ベースの手法では Adam 最適化器の複雑な動的挙動を捉えられないという課題を解決するため、固定状態仮説に基づく閉形式近似と「線形化ゴースト近似」を導入し、Adam 最適化器に対応した高速かつ高精度なデータ寄与度評価手法「Adam-Aware In-Run Data Shapley」を提案するものである。
シュワルツの高次価値カテゴリーは、単一の文から人間の価値を検出するタスクにおいて、厳密な階層的ゲートリングやスタンドアロンのコンパクト LLM としてよりも、閾値調整やアンサンブルによる校正、あるいは帰納的バイアスとして活用する方が、限られた計算資源下でより効果的であることが示されました。
本論文は、人間の学習プロセスに着想を得た「厚み化から薄み化(T2T)」という動的報酬枠組みを提案し、誤答時には探索を促す「厚み化」、正解時には冗長性を抑制する「薄み化」を段階的に適用することで、大規模言語モデルの推論能力を大幅に向上させることを示しています。
本論文は、LLM 生成コードの構造的な脆弱性がフロントエンド特徴から予測可能であることを示す「FSTab」フレームワークを提案し、ブラックボックス環境下での攻撃成功率 94% などの高い転移性を確認することで、コード生成における新たなセキュリティリスクを明らかにした。
この論文は、arXiv などの 920 万件の定理を網羅する大規模コーパスを用いて、自然言語記述による意味検索が数学者による専門的な定理検索において既存手法を大幅に上回る有効性を有することを示しています。
この論文は、大規模言語モデルを活用してレビューテキストなどからユーザーとアイテムの動機を抽出・統合し、ノイズや意味のズレを抑制する新たな推薦フレームワーク「LMMRec」を提案し、既存手法を最大 4.98% 上回る性能向上を実証したものです。
本論文は、Doob の h 変換とマルティンゲール理論に基づき、事前学習済み拡散モデルのスコアネットワークを変更することなく、確率 1 で制約を満たす硬制約付き条件生成を実現するガイダンス手法と、その誤差解析およびオフポリシー学習アルゴリズムを提案するものである。
本論文は、従来の静的ベンチマークや手動レッドチームの限界を克服し、遺伝的プロンプト変異と階層的コーパス探索を統合した自律エージェントによるフィードバック駆動型最適化フレームワーク「NAAMSE」を提案し、大規模言語モデルの適応的な脅威に対する堅牢性をより現実的かつスケーラブルに評価する方法を示しています。
本論文は、脳グラフのセマンティクスを損なう既存のデータ拡張手法や構造情報の欠如といった課題を解決するため、拡散モデルを用いて構造認識型のドロップ・マスク戦略とトポロジーを考慮した再構成を可能にする統合的な事前学習フレームワーク「Diffusion-Guided Pretraining」を提案し、大規模な神経画像データセットにおける一貫した性能向上を実証したものである。
この論文は、LLM の内部層間の不一致を検出するメトリクスを用いて推論時にハルシネーションを抑制する新しいデコーディングアルゴリズム「CoCoA」を提案し、モデルの再学習なしに事実性の高い出力を実現することを示しています。
本論文は、自律走行におけるマルチモーダル大規模言語モデルの計算コストを最大 30 倍削減しつつ、全トークンを使用した場合と同等の性能を維持する初の教師ありトークン削減フレームワーク「SToRM」を提案し、LangAuto ベンチマークで最先端の手法を上回る結果を示したものである。
本論文は、人間の介入に依存せずマルチモーダルエージェントを「意味的世界モデル」として活用し、物理的探索を構造化することでサンプル効率を大幅に向上させ、ロボット強化学習の自動化とスケーラビリティを実現する「エージェント誘導方策探索(AGPS)」フレームワークを提案しています。