FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
この論文は、金融分野における大規模言語モデルのエージェント評価のために、760 個の実行可能な金融ツールと 295 個の厳密なクエリを備えた世界初のリアルワールドベンチマーク「FinToolBench」と、それに伴う評価フレームワークおよびベースライン手法「FATR」を提案するものである。
7179 件の論文
この論文は、金融分野における大規模言語モデルのエージェント評価のために、760 個の実行可能な金融ツールと 295 個の厳密なクエリを備えた世界初のリアルワールドベンチマーク「FinToolBench」と、それに伴う評価フレームワークおよびベースライン手法「FATR」を提案するものである。
この論文は、大規模な金融言語モデルのバイアス検出における計算コストを削減するため、異なるモデル間でバイアス検出入力に共通パターンが存在することを実証し、他モデルの出力をガイドとして活用することで検出効率を大幅に向上させる手法を提案しています。
本論文は、VLM(視覚言語モデル)とモンテカルロ木探索を活用してテスト時の計算リソースを拡張し、文脈に応じた軌道の反復的洗練を通じてロボットの模倣学習の成功率を大幅に向上させる「SAIL」というフレームワークを提案しています。
この論文は、グラフニューラルネットワーク(GNN)が学習データにおけるノイズとなる統計的相関(偽の相関)に依存して一般化性能が低下する問題を解決するため、ヒルベルト・シュミット独立基準(HSIC)を用いてこれらの相関を特定・抑制し、分布外(OOD)を含む様々な条件下で高い汎化性能を実現する新しいフレームワーク「SCL-GNN」を提案しています。
この論文は、RIKER 評価手法を用いた大規模な実証研究により、ドキュメント Q&A における LLM の幻覚発生率が文脈長とともに急増し、モデル選択が最も重要な要因である一方、ハードウェアプラットフォームには依存しないことを明らかにした。
本論文は、文化的安全性と文化的知識の相関が低いという発見に基づき、両者を統合的にモデル化し、専門的な知識を生成プロセスに組み込むことで大規模言語モデルの文化的安全性を向上させる新しいフレームワーク「AdaCultureSafe」を提案しています。
本論文は、電子カルテの不規則な時間構造と複雑な疾患経過を考慮し、SNOMED 基準の医学概念と階層的注意機構を組み合わせた「TA-RNN-Medical-Hybrid」という新しい深層学習フレームワークを提案し、集中治療室における死亡率予測の精度向上と臨床的に意味のある解釈可能性の両立を実現したことを報告しています。
EPSRC の助成金申請書 6 件を用いた構造的摂動評価により、LLM による審査はセクション別分析が最も有効である一方、現状では完全な代替ではなく補完的な役割に留まり、明瞭さの欠陥の検出や評価の優先順位に課題があることを明らかにしました。
本論文は、航空機エンジンブレードの検査記録の改ざん防止と監査可能性を確保するため、Hyperledger Fabric 基盤のブロックチェーンシステム「BladeChain」を提案し、AI による欠陥検出モデルのトレーサビリティ、自動検査スケジューリング、およびマルチステークホルダー間の改ざん耐性のあるライフサイクル追跡を実現したことを示しています。
この論文は、線形対角ネットワークにおけるシャープネス感知最小化(SAM)の暗黙的バイアスを研究し、特に深さのケースにおいて、初期値依存性や「逐次特徴増幅」と呼ばれる現象を通じて、無限時間収束の分析だけでは捉えられない動的な振る舞いが生じることを明らかにしています。
本論文は、視覚とテキストの両方を含む数学的問題解決における既存モデルの課題を踏まえ、構造化された知覚、明示的なアライメント、検証可能な推論を統合した新たなパラダイムを提案し、多モーダル数学推論の手法を「抽出」「表現とアライメント」「推論」「評価」の 4 つの観点から体系的に分析するとともに、今後の研究課題と展望を論じています。
この論文は、境界条件が変化するパラメータ依存の偏微分方程式に対して、従来のモデル順序縮約法の限界を克服し、計算領域のパラメータ記述から解への効率的なマッピングを学習する「グラフ指示ニューラルネットワーク(GINN)」という新たな手法を提案し、その有効性を示すものである。
本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。
本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。
この論文は、Epic Kitchens データセットから作成された最小識別可能領域(MIRCs)を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。
本論文は、構造化された推論トレースと知識グラフに基づく安全性検証を組み合わせたニューロシンボリックフレームワーク「CORE-Acu」を提案し、鍼灸臨床意思決定支援において推論の解釈可能性を高め、幻覚を防止して安全性を厳格に保証する手法を示しています。
この論文は、大規模言語モデル、記号計算ツール、人間の戦略的指導を統合した自律型神経記号システムを用いて、組合せ設計理論におけるラテン正方形の不均衡に関する新たな厳密な下限($4n(n{-}1)/9$)を発見し、Lean 4 で形式的に検証したことを報告しています。
この論文は、組織変形や特徴点の欠如といった課題を克服し、実世界のポーズラベルなしでも臨床データで有効性が実証された、セグメント間オドメトリと実像から仮想空間への転移学習を組み合わせた新しい内視鏡ロボットナビゲーションシステム「EndoSERV」を提案するものである。
SPD-RAG は、各ドキュメントを個別に処理する専門エージェントと調整エージェントを階層的に組み合わせ、大規模な多ドキュメント環境における複雑な質問への回答精度を向上させつつ、API コストを大幅に削減する新しい検索拡張生成フレームワークを提案するものです。
この論文は、製品・レビュー・レビュアーの関係を統合的にモデル化し、ネットワーク特徴スコアリングと動的グラフ注意機構を組み合わせることで、スパースデータ環境下でも頑健に偽レビューグループを検出する新しいグラフ学習モデル「DS-DGA-GCN」を提案し、実データを用いた実験で既存手法を上回る高い精度を達成したことを報告しています。