OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本論文は、米国財務省の約 100 年間にわたる膨大で多様な文書コーパスに基づき、最先端の AI エージェントが構造化された文書表現の提供により性能が向上するものの、依然として企業レベルの根拠に基づく推論において大幅な改善の余地があることを示す「OfficeQA Pro」というベンチマークを提案しています。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

この論文は、深層学習や機械学習に基づく自然言語処理および情報検索モデルの非線形構造による解釈の難しさを克服し、単語埋め込みからトランスフォーマー、文書ランキングに至るまでの主要な手法の解釈可能性と説明可能性に関する研究を包括的に調査し、今後の研究の方向性を示唆するものである。

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

本論文は、推薦システムにおけるアイテムの長期尾部問題に対処するため、協調情報のノイズを適応的に除去し、行動とコンテンツの整合性を最適化するとともに行動ごとの重みを動的に学習する新しいフレームワーク「ADC-SID」を提案し、その有効性を示したものである。

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

本論文は、オンラインレビューの評価順序(評価先かレビュー先か)が、サービス品質や製品属性に応じて消費者評価の極端化を促進し、そのメカニズムが感情的ヒューリスティックと認知的努力の直列的媒介を通じて生じることを、3 つの実験と Yelp などの大規模二次データ分析により実証したものである。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

この論文は、TREC 2022 Fair Ranking Track データセットを用いた系統的な比較を通じて、推論機能を持つ再ランクモデルが従来の非推論モデルに比べて公平性を向上も悪化もさせず、入力されたランキングの公平性特性を維持していることを明らかにしています。

Saron Samuel, Benjamin Van Durme, Eugene YangThu, 12 Ma🤖 cs.AI

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

本論文は、従来の生成型推薦システムにおけるアイテムと行動トークンの交互配置がもたらす非効率性を解消し、アイテムと行動の因果関係を明示的にモデル化する「AttnLFA」と「AttnMVP」という 2 つの新規アーキテクチャを提案することで、推論精度の向上と訓練時間の短縮を同時に実現したことを示しています。

Hailing ChengThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

この論文は、離散インデックスの微分不可能性と流行バイアスによる幾何学的な不整合という 2 つの課題を解決するため、Gumbel-Softmax と対称重み共有による最適化の統一、および単位超球面上のスケーリングされたコサイン類似度による幾何学的最適化を導入した「微分可能な幾何学的インデックス(DGI)」を提案し、大規模検索および電子商取引データセットにおいて既存手法を上回る性能、特にロングテールシナリオでの堅牢性を示しています。

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

この論文は、ユーザーの長期的な嗜好と短期的な興味の変遷をそれぞれグローバルおよび局所的な時間的視点から統合的に学習する新しいニュース推薦フレームワークを提案し、実データによる実験で既存手法を上回る性能を実証したものである。

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

この論文は、動的なスキーマ進化とマテリアライズドビューの再利用を可能にするハイパーグラフデータモデルとサンプリングベースの推定アルゴリズムを導入した「ExBI」というシステムを提案し、大規模な探索的ビジネスインテリジェンスワークフローにおいて既存システムを大幅に凌駕する高速性と高い精度を実現したことを示しています。

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

この論文は、LLM を活用してユーザー、アイテム、プラットフォームの 3 者の利益を調整する「TriRec」という新しい推薦フレームワークを提案し、アイテムの自己促進と多目的再ランキングを通じて精度と公平性を両立させることを示しています。

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本論文では、RAG パイプラインの各コンポーネントをモジュール化し、実世界のワークロードをシミュレートしながら、パフォーマンスと精度を包括的に評価できるエンドツーエンドのベンチマークフレームワーク「RAGPerf」の設計と実装を提案しています。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

この論文は、LLM を活用して MIPVU などのメタファー識別プロトコルを実行可能なルールスクリプトとして実装し、中国語のメタファー識別においてプロトコルの選択がモデルの選択よりも結果のばらつきに大きな影響を与えることを示す、解釈性と透明性を重視した比較研究である。

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

この論文は、大規模な英独バイリンガル目録記録と統合権限ファイル(GND)の注釈付きコーパス、および機械可読な GND 分類体系を公開し、権限に根ざした AI 支援による目録作成と評価を可能にする新しい極端多ラベルテキスト分類リソースを提案するものである。

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

本論文は、大規模言語モデルの事実性や追跡可能性の欠如を克服するため、反復スキーマ洗練アルゴリズムで構築されたハイブリッド製薬知識ベースと、これを基盤とした検証チェーン(CoV)を組み合わせた「PharmGraph-Auditor」という新しいシステムを提案し、薬剤師による処方箋検証の安全性と効率性の向上を目指すものである。

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

A Systematic Study of Pseudo-Relevance Feedback with LLMs

本論文は、擬似関連フィードバック(PRF)の設計における「フィードバックソース」と「フィードバックモデル」の役割を解明するため、13 の低リソースタスクと 5 つの LLM 手法を用いた体系的な実験を行い、フィードバックモデルの選択が効果に決定的な影響を与えること、およびリソース制約や初期検索器の性能に応じて最適なフィードバックソースが異なることを明らかにしました。

Nour Jedidi, Jimmy LinThu, 12 Ma💬 cs.CL

LLMGreenRec: LLM-Based Multi-Agent Recommender System for Sustainable E-Commerce

本論文は、LLM を活用したマルチエージェントフレームワーク「LLMGreenRec」を提案し、ユーザーの持続可能な購買意図を推論して環境に配慮した製品を推薦すると同時に、システム自体のデジタル炭素フットプリントも削減する手法を確立したものである。

Hao N. Nguyen, Hieu M. Nguyen, Son Van Nguyen, Nguyen Thi HanhThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

この論文は、アルゴリズムや AI による要約が圧縮・自動化しつつある人間の解釈的労働を可視化し、読書自体を創造的活動として再定義する「Reading Activity Traces(RATs)」という概念を提案し、その具体例としてウィキペディア向けの「WikiRAT」を紹介することで、人間の解釈が失われることなく知的ツールを設計するための新たな基盤を築こうとするものです。

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs