CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents
この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。
3852 件の論文
この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。
インドの数学オリンピック問題を対象とした、AI と人間の協働パイプラインにより構築され、312 件の人間検証済み Lean 4 定理を含む新しいベンチマーク「IndiMathBench」を提案し、大規模言語モデルにおける自動形式化の現状と課題を明らかにした。
この論文は、生成された動画フレームの各領域における不確実性を高密度に推定し、物理的現実と一致しない「幻覚」を検知・可視化することで、ロボット制御などのタスクにおける信頼性を向上させる新しい不確実性定量化手法「C3」を提案するものです。
この論文は、フラグメントベースの言語モデル、強化学習、モンテカルロ木探索を統合した「Trio」というフレームワークを提案し、既存の手法を凌駕する結合親和性、薬物様性、合成容易性、および分子多様性を備えた解釈可能な閉ループ型分子発見を実現することを示しています。
この論文は、異なる環境間で最大リスクを最小化する(MaxRM)という原則に基づき、平均二乗誤差、負の報酬、後悔の 3 つのリスク指標に対応するランダムフォレストの新しい変種を提案し、その計算効率性、統計的整合性、および未見のテスト分布に対する保証を実証しています。
本論文は、RL 訓練中のチェックポイントをマージして「無料の教師モデル」として活用する GTR-Turbo を提案し、高価な外部モデルへの依存を排除しつつ、マルチモーダルエージェントの精度を大幅に向上させるとともに訓練時間と計算コストを大幅に削減する手法を提示しています。
本論文は、多様な電池データから転移可能な表現を学習する「事前学習済みバッテリー・トランスフォーマー(PBT)」という基礎モデルを初めて提案し、リチウムイオン、ナトリウムイオン、亜鉛イオン電池を含む広範なデータセットにおいて、既存の最良手法を大幅に上回る電池寿命予測性能を達成したことを報告しています。
この論文は、TLS 3D ポイントクラウドから生成された 2D 画像を用いて YOLOv8 で樹種分類を行う際、Finer-CAM による可視化解析がモデルの判断根拠(主に樹冠や幹などの構造的特徴)を忠実に説明し、分類精度の向上とモデルの信頼性構築に寄与することを示しています。
本論文は、真の事後分布が既知で記憶化が不可能な「ベイズ風洞」と呼ばれる制御環境を構築し、トランスフォーマーがアーキテクチャの幾何学的設計(残差ストリーム、フィードフォワードネットワーク、アテンションの役割分担)によって厳密にベイズ推論を実現することを示し、これが平坦なアーキテクチャとの決定的な違いであることを明らかにした。
本論文は、クロスエントロピー損失による勾配降下法がアテンションスコアと値ベクトルを共進化的に更新するメカニズムを解析し、これが変分推論的な EM 手順に相当する動的過程を通じて、トランスフォーマーがベイズ推論を実行するための低次元多様体を形成することを明らかにしています。
本論文は、小規模な「風洞」設定で確立されたベイズ推論の幾何学的基盤(低次元多様体や確率的エントロピーと相関する軸)が、Pythia や Llama-3 などの大規模言語モデルにおいても保存されており、不確実性の読み取りに寄与しているが、単一の層への介入だけでベイズ的な挙動が決定的に阻害されるわけではないことを示しています。
この論文は、検索拡張大規模言語モデルにおける不要な検索(オーバーサーチ)の問題を体系的に評価し、その新たな評価指標「Tokens Per Correctness」や軽減策、および関連データセット「OverSearchQA」を提案する研究です。
本論文は、企業向け大規模言語モデルにおけるデータ漏洩を防止するため、部門間でのインスタンス分離と厳格なコンテキスト所有権境界を実現する「セキュア・マルチテナント・アーキテクチャ(SMTA)」と、使用後の会話コンテキストを自動的に破棄する「バーン・アフター・ユース(BAU)」メカニズムを提案し、現実的な攻撃シナリオにおける高い防御成功率を実証したものである。
本論文は、モデル・コンテキスト・プロトコル(MCP)におけるツール呼び出しチェーンを悪用し、標準的なフィルタリングを回避しながら大規模言語モデルエージェントの計算リソースとコストを劇的に増幅させる、ステルス性の高い経済的 Denial-of-Service 攻撃手法を提案しています。
この論文は、アクションRPG『ダークソウルIII』の戦闘を方向性のあるスキルグラフとして表現し、階層的なカリキュラム学習と選択的適応を組み合わせることで、環境変化に対して再学習なしに高性能を維持・進化させる強化学習エージェントの実現可能性を示しています。
MemOCR は、重要な証拠を視覚的に強調し補助的な詳細を圧縮するレイアウト認識型の視覚メモリを構築することで、限られたコンテキスト予算下でも効率的な長期推論を実現するマルチモーダルエージェントです。
本論文は、従来の集約指標では見落とされがちな高リスク事例や多回対話におけるモデルの挙動を詳細に分析し、安全クリティカルなメンタルヘルス支援 AI の開発・評価・監査を可能にするオープンソースプラットフォーム「MHDash」を提案し、その有効性を示すものです。
この論文は、大規模言語モデルのハルシネーションが、限られた容量下での情報理論的に最適な戦略として、事実と非事実のスコア分布間の最小 KL ダイバージェンスによって特徴づけられるレート歪み定理の必然的な帰結であることを示しています。
本論文は、現実の多者対話における長期的な記憶能力を評価する初のベンチマーク「EverMemBench」を提案し、現在の LLM が多者間の帰属、時間的推論、および文脈に依存する記憶の認識において根本的な限界を抱えていることを明らかにしています。
この論文は、ロボットの駆動部故障時でもタスクを安全に完了させる「フェイル・アクティブ」な動作を実現するため、ロボットの現在の状態とタスク制約を条件とした拡散モデルベースの軌道生成手法「DEFT」を提案し、シミュレーションおよび実世界での実験を通じて、既存手法を大幅に上回る成功率と未知の故障に対するゼロショット汎化能力を実証しています。