cs.IR 件の論文 | Gist.Science

ThinkQE: Query Expansion via an Evolving Thinking Process

この論文は、LLM ベースのクエリ拡張が抱える狭い焦点という課題を解決するため、深層的な意味探索とコーパスからのフィードバックに基づく反復的改善を組み合わせたテスト時フレームワーク「ThinkQE」を提案し、複数の検索ベンチマークで既存手法を上回る性能を達成したことを報告しています。

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

本論文は、BERT ベースのモデルの推論能力の限界と大規模言語モデル（LLM）の実用課題を克服するため、CoT による推論の注入、DPO による生成品質の向上、GRPO による幻覚の抑制、および効率的なオンライン展開を可能にする 3 段階のフレームワーク「TaoSR1」を提案し、EC 検索における商品関連性予測の性能を大幅に向上させたことを示しています。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

本論文は、高次元空間におけるユークリッド距離と測地線の不一致という課題を解決するため、局所内次元性（LID）を用いてデータの内在的幾何構造に動的に適応するマンフォールド整合グラフインデックス「MCGI」を提案し、数十億規模のディスク常駐ベクトル検索において既存手法を大幅に上回るスループットと低遅延を実現したことを報告しています。

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

Uber Eats は、Qwen2 ベースの双塔モデルを大規模なクエリ - ドキュメント相互作用データで微調整し、Matryoshka 表現学習や多様な損失関数を活用して、店舗・料理・小売品といった多言語・多垂直分野にまたがる統合セマンティック検索システムを構築し、複数の市場で基線モデルを上回るリコール性能を達成した。

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Time warping with Hellinger elasticity

任意の距離空間に値を持つ時系列のマッチング問題に対し、ヘリングカーネルを伸縮ペナルティとして用いる最適化手法「弾性時間歪み（Elastic Time Warping）」アルゴリズムを提案し、その計算量を立方（O(n³)）に抑えている。

Yuly BilligWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

この論文は、TREC NeuCLIR 2024、TREC RAG 2024、WikiVideo などのベンチマークを用いた実証研究を通じて、検索段階の「カバレッジ」指標が生成された回答の情報網羅性を予測する信頼性の高い先行指標となり得ることを示し、特に検索と生成の目的が一致する際にその相関が顕著であることを明らかにしています。

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

この論文は、生成 AI 検索におけるドメインの可視性を単一の点推定値として扱う従来の手法の限界を指摘し、回答の非決定性を反映して引用分布のばらつきを統計的に定量化し、信頼区間付きの指標と適切なサンプリング手法の必要性を提唱するものである。

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

この論文は、マルコフ連鎖、強化学習、LLM を組み合わせた 3 層アーキテクチャを採用し、行方不明児童の捜索計画において、構造化されていないデータから解釈可能な時空間リスク予測と最適化された捜索計画を生成する意思決定支援システム「Guardian」を提案し、その有効性を検証したものである。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

この論文は、欠落者捜査の最初の 72 時間を支援し、複数のタスク特化型 LLM と合意形成エンジン、そして QLoRA 微調整を組み合わせることで、信頼性の高い構造化情報抽出を実現する「Guardian」というエンドツーエンドシステムを提案しています。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

本論文は、現代のデジタル物理層におけるハードウェア・ソフトウェアの不一致を解決し、代理ネットワーク（ProxyNet）と直交周波数分割多重（OFDM）の波形合成技術を活用することで、既存のデジタルトランシーバー上で高忠実度のアナログ結合源符号化（JSCC）を実現する新たなフレームワーク「D2AJSCC」を提案するものである。

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

この論文は、視覚的偽情報の検証において逆画像検索が事実確認コンテンツよりも誤情報や無関係な結果を優先的に表示するアルゴリズム的ゲートキーピングとして機能し、特に偽情報が出現直後の「データ・ボイド」期にその質が低下することを示しています。

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

この論文は、文脈長の制約や幻覚、単一エージェントの限界といった既存の表質問応答（TableQA）の課題を克服するため、データリーダー、データベースチーム、知識グラフチームによる協調と自動知識変換を導入したマルチエージェントフレームワーク「DataFactory」を提案し、複数のベンチマークで大幅な精度向上を実証したものである。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

この論文は、人間の記憶における「親しみ（Familiarity）」と「想起（Recollection）」の二重プロセスを模倣し、親しみ度の不確実性に基づいて適応的に検索経路を切り替える新たなメカニズム「RF-Mem」を提案することで、大規模言語モデルのパーソナライズにおける記憶検索の精度とスケーラビリティを向上させることを目指しています。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

この論文は、生成エンジン最適化（GEO）において引用率を向上させるため、引用失敗の原因を診断し、エージェント型システム「AgentGEO」を用いてターゲットを絞った修正を自動適用する新たな枠組みを提案し、既存手法と比較して大幅な改善とコンテンツの最小限の変更を達成したことを示しています。

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

この論文は、LLM の長期的な対話における文脈制限を克服するため、意味的相関に基づく適応的なメモ抽出と、ユーザー入力に応じて適切な検索ツールを自律的に選択・反復実行する「TA-Mem」という新しいフレームワークを提案し、LoCoMo データセットにおいて既存手法を上回る性能を実証したものです。

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

LLM エージェントが知識の検索劣化やルール合成の困難さ、古くなった知識の検出に直面する課題に対し、確定的なルール検索、ベイズ推論に基づく矛盾認識メモリ、そしてパレート最適化を用いたプロンプト進化ループ「COMPASS」を統合した PRECEPT 枠組みが、テスト時適応において大幅な性能向上と頑健性を達成することを示しています。

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

この ECIR 2025 の基調講演では、大規模言語モデルが事前学習で獲得したパラメトリック知識と検索された文脈知識の相互作用、特に両者の矛盾やモデルが文脈を無視する現象を解明するための評価手法や診断テストに関する研究が紹介されます。

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

本研究は、高齢者の心血管リスク管理における手動コーディングの限界を克服するため、3,482 人の患者の非構造化電子健康記録を用いて、従来の機械学習や生成 LLM、および構造化データとの融合手法を比較評価し、長距離依存性を捉えることに特化したカスタム Transformer 構造が最も高い性能を示したことを明らかにしました。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI