HCT-QA: A Benchmark for Question Answering on Human-Centric Tables
本論文は、PDF や Web ページなどに埋め込まれた複雑な構造を持つ人間中心の表(HCT)に対する自然言語での質問応答を評価するための大規模ベンチマーク「HCT-QA」を提案し、その構成と 25 種類の LLM および 9 種類の VLM による性能評価、ファインチューニングによる大幅な精度向上を実証しています。
154 件の論文
本論文は、PDF や Web ページなどに埋め込まれた複雑な構造を持つ人間中心の表(HCT)に対する自然言語での質問応答を評価するための大規模ベンチマーク「HCT-QA」を提案し、その構成と 25 種類の LLM および 9 種類の VLM による性能評価、ファインチューニングによる大幅な精度向上を実証しています。
本論文は、イベントカメラの閾値設定に起因するイベントの欠損や断片化という実世界の課題に対処するため、モダリティ固有の表現を解離させてから選択的に融合する「RED」という堅牢なイベント誘導モーションデブラリング手法を提案し、合成および実世界のデータセットにおいて最先端の精度と堅牢性を達成したことを示しています。
この論文は、検索精度と環境負荷のバランスを最適化するため、セマンティック誘導拡散チューニング、ランジェヴィン動力学、および適応的早期終了プロトコルを統合した「GaiaFlow」と呼ばれる炭素効率型の検索フレームワークを提案し、その有効性を示しています。
この論文は、大規模データ環境におけるテキストから SQL への変換(Text-to-Big SQL)を評価する際、従来のベンチマークでは見落とされていたコストやレイテンシなどのスケーラビリティ課題を克服するため、実行効率やデータ規模の影響を正確に反映する新規評価指標を提案し、最先端の LLM エージェントを対象とした包括的な評価を通じてその有効性を示しています。
本論文は、大規模 EC 検索における複数のチャネルからの結果を、固定重みではなくクエリ依存の学習型ランキングモデルで統合し、ユーザーのコンバージョン率を 2.85% 向上させながら 50ms 未満の遅延で Target.com に実装した手法を提案しています。
この論文は、RAG と大規模言語モデルを活用し、ファクトチェックの根拠提示やユーザー対話機能を備えたブラウザ拡張機能「Aletheia」を開発・評価し、その検出精度と実用性を実証したものである。
VDCook は、自然言語クエリと調整可能なパラメータに基づいてリアルタイムの動画検索と合成を自動実行し、MCP を活用して継続的に進化する専門分野向け動画データ構築プラットフォームを提供するシステムです。
本論文は、複雑なドキュメントの質問応答タスクにおいて、クエリの難易度に応じた経路選択と、視覚解釈と論理推論を分離した機能デカップリングアーキテクチャを導入することで、推論コストを削減しつつ最先端の性能を達成する「AutoThinkRAG」というフレームワークを提案しています。
本論文は、医療分野の EHR データベースにおける自然言語から SQL への翻訳課題に対し、単一ステップの検索に依存する従来の RAG の限界を克服し、論理構造と実体解決を段階的に行うケースベース推論(CBR)に基づく「CBR-to-SQL」フレームワークを提案し、MIMICSQL における最先端の精度と高いサンプル効率を実証したものである。
本論文は、TikTok に対するアルゴリズム監査を通じて、未成年者へのプロファイリング広告禁止を定めた EU デジタルサービス法(DSA)第 28 条が「広告」の狭義の定義によりインフルエンサーマーケティングなどの実質的な商業コンテンツを網羅できておらず、未成年者が定義の隙間を突いた高度にパーソナライズされたプロモーションにさらされている実態を明らかにし、規制対象の拡大を提言しています。
この論文は、ニュースの地域性(国内・世界)に関する多様性を高めることを目的とした「双方向較正アルゴリズム的ナッジ」と「LLM ベースの提示ナッジ」を 120 名の米国人読者を対象に 5 週間にわたり実証研究した結果、アルゴリズム的ナッジが多様なニュースの接触と消費を成功裡に増加させたこと、および長期的な較正されたニュースへの曝露が読者の習慣を国内と世界のニュースのバランスを重視する方向へ変容させる可能性を示したことを報告しています。
本論文は、医療や法務など機密性の高い分野における検索拡張型意図明確化システムにおいて、攻撃モデルの定義、検索レベルの防御策の設計、そして保護レベルとシステムの有用性のトレードオフを評価する方法を提案する研究課題を提示しています。
この論文は、現実世界のショッピングエージェントにおける多様な目的を同時に最適化するために、階層的評価ベンチマーク「SmartShopBench」、条件付きゲーティングによる報酬モデル「HRM」、および動的な軌道選択による学習手法「DCPO」を提案し、これらを統合した RL 駆動エージェント「ChatShopBuddy」が既存の大型モデルよりも安定した高性能を実現することを示しています。
本論文は、異なる K 値に対するクエリに高い精度と性能を維持しつつ前処理コストを大幅に削減する、K 汎化可能なベクトル検索手法「OMEGA」を提案し、既存の学習型検索手法と比較して平均レイテンシを 6〜33% 削減できることを示しています。
本論文は、マルチモーダル連続推薦における推論能力を向上させるため、視覚トークンのコスト削減、報酬過大評価の回避、および高品質な思考連鎖の構築を可能にする効率的かつ安定した GRPO ベースのフレームワーク「MLLMRec-R1」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
本論文は、強化学習を用いてセットレベルの目的に整合する訓練データを生成し、それを基に軽量な拡散モデルを学習させる「R4T」という手法を提案することで、多様な結果を返す検索タスクにおいて、従来の強化学習ベースのアプローチに比べて推論コストを大幅に削減しつつ検索品質を向上させることを示しています。
この論文は、LLM の知識更新やハルシネーション問題を解決するため、チャンクの相関関係を考慮したモンテカルロ木探索、非単調な有用性の評価、およびクエリごとの適応的設定を可能にする学習型コスト制約検索最適化フレームワーク「CARROT」を提案し、既存手法を最大 30% 上回る性能向上を実証したものである。
この論文は、チューニング不要の RAG 支援 LLM パイプラインで意図を抽出し、ユーザーとアイテムを意図ノードに明示的にリンクさせる「IKGR」というフレームワークを提案し、疎な接続や知識のギャップ下でも冷たいスタートやロングテールアイテムに対して高性能な推薦を実現するものである。
本論文は、大規模言語モデルを用いた次なる関心地点(POI)推薦において、トポロジーを考慮した意味的 ID 生成と強化学微細調整(Reinforcement Fine-Tuning)を導入し、既存手法が抱える意味的連続性の欠如やトップ 1 予測への依存という課題を克服し、高精度かつ説明可能なトップ k 推薦リストの生成を実現する「Refine-POI」というフレームワークを提案しています。
この論文は、パラメータ数や学習データが同一の条件でトレーニングされたエンコーダ型とデコーダ型のモデルのペア「Ettin」を公開し、それぞれのタスク(分類・検索対生成)において専用モデルが他方への転用学習よりも優れていることを実証するとともに、すべての学習アーティファクトをオープンソース化しています。