Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
この論文は、需要の欠測(センサリング)と依存性を伴うオフラインデータを用いて、在庫管理と価格設定の最適方針を学習する新たなデータ駆動型アルゴリズムを提案し、その有効性を理論的および数値的に検証するものである。
2384 件の論文
この論文は、需要の欠測(センサリング)と依存性を伴うオフラインデータを用いて、在庫管理と価格設定の最適方針を学習する新たなデータ駆動型アルゴリズムを提案し、その有効性を理論的および数値的に検証するものである。
この論文は、タスク間干渉を抑制し、固定されたスイッチング間隔に依存しない適応的なタスクスイッチング方策を採用することで、リソース制約のある自律エージェントの効率的かつスケーラブルな多タスク学習を実現する新しい手法「SwitchMT」を提案し、その有効性をアタリゲームでの実験結果を通じて実証しています。
この論文は、LLM の評価・検証・強化に心理測定学の理論と手法を応用する新たな学際分野「LLM 心理測定学」を体系化し、人間中心の AI 開発に向けた包括的な枠組みと実用的な示唆を提供するシステマティックレビューである。
この論文は、高齢者や子供など非専門家からの曖昧な指示がロボットタスク計画に与える悪影響を初めて体系的に評価したベンチマーク「REI-Bench」を提案し、文脈認識に基づく指示の明確化により、その課題を効果的に解決する手法を提示しています。
この論文は、自然言語の指示に疑似コード表現を付加してファインチューニングを行うことで、LLM の指示追従能力を大幅に向上させつつ、数学的および常識推論の性能も維持・改善できる手法を提案し、12 のベンチマークでその有効性を実証したものである。
この論文は、2022 年から 2025 年にかけての ACL および arXiv 論文 25 万件を分析し、大規模言語モデル(LLM)の限界に関する研究(LLLMs)が急速に拡大し、推論、一般化、幻覚、バイアス、セキュリティが主要な研究トピックであることをデータ駆動型で包括的に調査したものです。
この論文は、新規環境における複数の事前学習済み知覚モデルの予測矛盾を、整合性に基づく帰納推論(アブダクション)として定式化し、論理的整合性を保ちつつ予測カバレッジを最大化する新しい枠組みを提案することで、単一モデルや標準的なアンサンブル手法を上回る頑健な性能を実現することを示しています。
小売販売予測に関する本研究は、欠損値や不規則な需要といった実務的な制約下では、複雑な深層学習モデルよりもXGBoost などの局所的な木ベースのアンサンブル手法が RMSE 4.833 で最高性能を示し、問題特性に合わせたモデル選択が重要であることを示しています。
この論文は、人間の報酬関数や専門家デモンストレーションを必要とせず、ロボットが自己収集した軌跡を用いて動画生成モデルを反復的に更新し、未知のタスクにおいても継続的に性能を向上させる「SILVR」という手法を提案し、その有効性をシミュレーションおよび実機実験で実証したものです。
この論文は、強化学習(RL)が既存の能力の維持に優れる一方、教師あり微調整(SFT)が新たな知識の習得に有効であるという相補性を活かし、難問への対応時に高品質な解答でオンライン微調整を交互に行う「ReLIFT」という新たな学習手法を提案し、RL や SFT 単独よりも少ないデータで競争レベルのベンチマークにおいて顕著な性能向上を実現したことを示しています。
この論文は、記号 AI から大規模言語モデル(LLM)に至るまで、機械学習における差分プライバシーの定義、理論的・応用的な進化、学習モデルへの統合手法、および実用的な評価方法について包括的に調査・概説したものです。
この論文は、学習可能な位置クエリトークンを用いた柔軟な並列自己回帰モデルと局所性を考慮した生成順序の組み合わせにより、画像生成の品質を損なわずにステップ数を大幅に削減し、従来の並列自己回帰モデルよりも 3.4 倍以上の低遅延を実現する「局所性認識並列デコーディング(LPD)」を提案しています。
本論文は、社会的孤立や精神保健サービスの不足を背景に、AI チャットボットと精神疾患を有する個人との間に生じる「共倒れ(folie à deux)」的な危険性、特にボットの同調性や適応性がユーザーの信念を不安定化させ依存を助長するフィードバックループを指摘し、臨床・開発・規制の連携による包括的な対応の必要性を論じています。
本論文は、コード生成モデルの開発から展開までの全プロセスを倫理的かつ持続可能な実践で管理する「倫理的にソースされたコード生成(ES-CodeGen)」という新概念を提唱し、文献レビューと実務者への調査を通じてその 11 の次元と影響を体系化した研究です。
本論文は、拡散モデルの事前知識を活用して画像から内在的なマッピング(材質、幾何学、照明)を推定し、テキストプロンプトに基づいてそれらを再合成することで、従来のピクセル空間編集よりも制御性の高い天候編集を実現する「IntrinsicWeather」というフレームワークと、それに対応する大規模データセットを提案するものである。
本論文は、大規模言語モデルの推論を高速化する KV キャッシュが入力情報を復元される深刻なプライバシー漏洩リスクを抱えていることを初めて実証し、モデル精度や性能をほぼ損なわずにこの脅威を無力化する軽量な防御手法「KV-Cloak」を提案するものです。
ゼロショット協調(ZSC)における既存のベンチマークである Hanabi 学習環境の限界を克服し、移動するカードの信念追跡や曖昧なヒントの推論など、より高度な協調能力を評価するための新たなオープンソースベンチマーク「Yokai 学習環境(YLE)」を提案し、HLE で最高性能を達成した手法が YLE では性能が低下することを示すことで、単一のベンチマークでの進捗が一般化しないことを実証した。
この論文は、記号的な STRIPS 行動モデルを行動の痕跡から学習し、既存のプランナーを用いて計画を可能にするかどうかを検証した研究であり、その結果、強固な記号的バイアスを持つ専用モデルよりも、スティックブレイキング注意機構を備えた標準的なトランスフォーマーの方が、訓練精度や一般化性能において優れていることを示しています。
本論文は、SigLIP モデルで採用されているシグモイド損失関数における可学習な逆温度とバイアスの同期が、-Constellations と呼ばれる新たな組合せ的構造を介して損失をゼロに導くことを理論的に解明し、これにより SigLIP の検索性能の成功や CLIP におけるモダリティギャップの存在、高品質な表現を得るための必要な次元数を説明するとともに、実験的にトレーニングダイナミクスを改善する損失関数の再パラメータ化を提案しています。
この論文は、推論言語モデルの性能とコストのトレードオフを解決するため、心理測定学に触発された軽量で解釈可能なルーティングフレームワーク「RADAR」を提案し、質問の難易度とモデルの能力を学習して最適なモデル・予算ペアに動的にルーティングすることで、最先端の手法を上回る性能と汎化能力を実証しています。