Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis
この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。
1891 件の論文
この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。
本論文は、世界中の大手決済ネットワークの数十億件の取引データで学習された、3D トランスフォーマーアーキテクチャを採用した新しい基盤モデル「TransactionGPT」を提案し、異常検知や将来取引生成などの下流タスクにおいて既存のモデルや微調整された LLM を凌駕する性能と効率性を示したものである。
本論文は、アトリビューションパッチングとコントラストテキスト対に基づく活性化ベクトルを用いて LLaMA 3.1-8B の特定層を操作する「活性化エンジニアリング」手法を提案し、大規模言語モデルの対話において人間らしい感情的ニュアンスや主体的な関与を効果的に誘導できることを示しています。
この論文は、LLM 間の自信度に基づく細粒度の議論(CFD)フレームワークを提案し、新たに作成したメンタルヘルスおよびオンライン安全のデータセットを用いて、従来の手法を上回る自動化データ付与を実現し、下流タスクの性能を大幅に向上させることを示しています。
本論文では、多様なジャンルを網羅し詳細なサブタイプ分類を備えたブリッジング照応のための新規コーパス「GUMBridge」を提案し、その品質評価と大規模言語モデルを用いたタスク性能の検証を通じて、同タスクが依然として困難であることを示しています。
本論文は、マスク拡散言語モデル(MDLM)において、最適化やサンプリング手順の変更なしに、単一の低次元方向を抽出して活性化を操作する「活性化誘導」手法を提案し、安全拒否制御において従来の手法を上回る効果とアーキテクチャ固有の特性を明らかにしたものである。
この論文は、LLM の最終層における次のトークンの確率分布から導出される出力エントロピーのプロファイルを用いて、ドメインシフト下でのスライスレベルの精度を推定し、モデルの監視とデータ収集の優先順位付けを可能にする手法を、複数の STEM ベンチマークと多様な LLM において検証したものである。
本論文は、LLM の自己改善プロセスにおいて過去の失敗例が文脈に含まれることで、構造的に類似した誤りが誘発され、性能が低下する「コンテキスト・ドラッグ」という現象を特定し、既存の緩和策では完全な解決が困難であることを示しています。
この論文は、ユーザーの安定した性格特性(ビッグファイブ)を潜在的なシグナルとして活用し、性格に合致する選好を抽出して LLM の回答生成に組み込むことで、パーソナライズされた質問応答の精度を大幅に向上させる手法と、それに対応するデータセット「PACIFIC」を提案しています。
この論文は、推論時のアクティベーション操作をモデルコンポーネントレベルの重み編集に変換するトレーニング不要なフレームワーク「Steer2Edit」を提案し、安全性や真実性などの属性制御とモデル性能のトレードオフを大幅に改善することを示しています。
本論文は、多様な医療ベンチマークで最先端の性能を達成し、閉源の最先端マルチモーダルシステムを上回る医療用マルチモーダル大規模言語モデル「MedXIAOHE」を、エンティティ意識型継続的事前学習、強化学習およびツール拡張エージェント訓練による推論、そして低ハルシネーションのレポート生成などの技術的アプローチを通じて構築・評価したことを報告するものである。
この論文は、大規模な評価を通じて、従来の否定的な見解を覆し、LLM が時系列予測の性能、特にドメイン横断的な汎化において重要な役割を果たし、事前学習知識とモデルアーキテクチャが相補的に機能することを明らかにしています。
この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。
この論文は、20 以上の STEM 分野の大学試験問題から構成される多モーダルベンチマーク「CFE-Bench」を提案し、最先端の言語モデルが中間段階の推論を維持する点やステップ効率の面で依然として課題を抱えていることを示しています。
本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、報酬設計に焦点を当ててルブリックをモデルの能力に応じて階層化し、動的に重みを調整する「RuCL」という新しいフレームワークを提案し、視覚推論ベンチマークにおいて SOTA となる精度を達成したことを報告しています。
本論文は、画像データの制約を克服し大規模な言語カバレッジを実現するため、音声とテキストを融合して大規模言語モデルに統合し、自己進化メカニズムを用いて合成音声データで最適化する「音声ガイド機械翻訳(SMT)」フレームワークを提案し、多言語マルチモーダル翻訳および汎用翻訳タスクにおいて最先端の性能を達成したことを報告しています。
本論文では、LLM エージェントが科学文献にアクセスする際の非構造化データやトークン消費の課題を解決するため、ArXiv などの学術文献を構造化データに変換し、CLI や Python SDK などを介した多層的なデータインターフェース「DeepXiv-SDK」を提案しています。
この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。
本論文は、異質な形式や注釈基準に起因する研究の断絶を解消するため、エンティティとイベントの両方のコリファレンスを統合し、一貫したフォーマットと評価プロトコルを提供する統一データセット「uCDCR」を構築・分析し、クロスドメインでのモデル汎化性能向上とイベントおよびエンティティの両方の解決の重要性を明らかにしています。
この論文は、医療概念のシグネチャに基づいて臨床的に意味のある Yes/No 質問を生成するオントロジーに基づくフレームワーク「QIME」を提案し、従来の解釈可能な埋め込み手法を凌駕しながらブラックボックス型モデルとの性能差を大幅に縮小し、かつトレーニング不要な戦略も可能にすることで、臨床意思決定に有用な解釈性のある医療テキスト埋め込みを実現することを示しています。