FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
本論文は、AI アージェントの金融データ検索能力を評価する新たなベンチマーク「FinRetrieval」を提案し、構造化データ API の利用が性能を決定づける一方、推論モードや地理的要因の影響はモデルの基盤能力やデータ形式に依存することを明らかにした。
154 件の論文
本論文は、AI アージェントの金融データ検索能力を評価する新たなベンチマーク「FinRetrieval」を提案し、構造化データ API の利用が性能を決定づける一方、推論モードや地理的要因の影響はモデルの基盤能力やデータ形式に依存することを明らかにした。
本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。
本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。
この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。
本論文は、数値、範囲、ガウス分布を単位や変数名と統合して距離を保持する埋め込みベクトルに変換するハイブリッド型トランスフォーマーモデル「CONE」を提案し、多様なドメインにおける大規模データセットでの実験により、数値推論能力の大幅な向上を実証しています。
この論文は、統計的データ分布情報を関数メタデータと融合させる軽量な検索モデル「DARE」と大規模な R パッケージ知識ベース「RPKB」を提案し、R 生態系における LLM エージェントのコード生成精度と統計分析タスクの成功率を大幅に向上させることを示しています。
本論文は、情報検索における再ランク付けタスクにおいて、モデルサイズとデータ量の変化に対する性能が予測可能なパワールー則に従うことを初めて体系的に実証し、小規模な実験から大規模モデルの性能を高精度に予測することで計算リソースを大幅に節約できる手法を提案しています。
本論文は、電子商取引検索におけるテキストと画像の情報を効果的に統合するため、ドメイン固有の微調整と段階的なアライメントを重視し、新たなモダリティ融合ネットワークを提案することで、大規模データセットでの検索精度向上を実証しています。
この論文は、LLM による生成ネイティブ広告の多様なスタイルを分類し、その検出手法を評価した結果、エンティティ認識を用いたモデルがスタイル変化に対して頑健である一方、軽量モデルは脆弱であることを明らかにしている。
この論文は、従来の静的な逆確率重み付け(IPS)の限界を克服し、シーケンシャル推薦における選択バイアスと露出バイアスを時系列依存性と時間的ダイナミクスを考慮した「時間意識型逆確率重み付け(TIPS)」によって効果的に軽減し、推薦精度を向上させる手法を提案しています。
この論文は、疎な知識グラフにおける既存の Leiden クラスタリングの再現性欠如を解決し、k-コア分解に基づく決定論的かつ効率的な階層構造を導入することで、GraphRAG の回答の包括性や多様性を向上させつつトークン使用量を削減する手法を提案しています。
本論文は、オーストラリア国立大学のコンピュータサイエンス分野の学術知識グラフ(ASKG)と大規模言語モデル(LLM)を統合し、Deep Document Model と KG 強化クエリ処理を採用することで、従来の手法よりも高精度かつ効率的な意味検索システムを提案し、学術知識管理の革新を目指すものである。
本論文は、RAG と GraphRAG の性能を公平に比較評価するための統一プロトコルを提案し、タスクごとの長所・短所を明らかにするとともに、両者の統合による性能向上や失敗要因の分析を通じて、効果的な検索拡張生成システムの設計指針を提示する。
OSCAR は、推論時に検索された情報を動的に圧縮して計算コストを削減し、同時に再ランク付けを行うことで、精度を維持したまま RAG パイプラインの推論速度を 2〜5 倍に向上させる新しいオンラインソフト圧縮手法を提案するものです。
本論文は、Pinterest 規模の推薦システムにおいて、複数のビジネス指標を条件とした生成と多トークン生成を採用し、パフォーマンス、多様性、効率性を両立させた初の厳密な研究である「PinRec」という生成型検索モデルを提案するものである。
従来の推薦システムが抱えるフィードバックループや静的な最適化の課題を解決するため、長期的な集団アイデンティティと短期的な個人の興味を同時にモデル化する「二重安定型興味探索(DSIE)」モジュールと、增量データを用いた動的な閉ループ最適化を実現する「周期的協調最適化(PCO)」メカニズムを組み合わせた「共進化アライメント(CoEA)」法を提案し、偶然性の高い推薦(セレンディピティ)の効果を検証した論文です。
本論文は、深層研究エージェントのパーソナライズ能力を評価するための初のベンチマーク「PDR-Bench」と、その性能を多角的に測定する評価フレームワーク「PQR」を提案し、パーソナライズされた AI 研究助手の発展に向けた基盤を確立したものである。
本論文は、淘宝の視覚検索システムにおける「クリックなし」リクエストから潜在的なユーザー意図を大規模言語モデルを用いてオフラインで分析・推論し、オンラインで最適化戦略を適応的に実行する新フレームワーク「REVISION」を提案し、クリック率の低下を顕著に改善したことを示しています。
本論文では、大規模マルチテナント検索システムにおける「ダークデータ」の活用と高コストなモデル更新の課題を解決するため、LLM を活用した完全自動化パイプラインで構築されたベンチマーク「DevRev-Search」を提案し、ドキュメントインデックスを固定したままクエリエンコーダーのみを微調整する「Index-Preserving Adaptation」戦略により、スケーラブルかつ実用的な検索適応を実現することを示しています。
快手の広告システム向けに、ユニファイド広告セマンティックID、レイジー自己回帰デコーダ、価値感知教師あり学習、ランキング指向ソフトマックス選好最適化、および動的ビームサービングを統合した生成型推薦モデル「GR4AD」を提案し、大規模オンラインテストで既存の DLRM ベースのシステムに対し最大 4.2% の広告収益向上を実現したことを報告する論文です。