RoboLayout: Differentiable 3D Scene Generation for Embodied Agents
本論文は、視覚言語モデルを拡張し、到達可能性の制約を微分可能な最適化プロセスに統合することで、サービスロボットや人間など多様なエージェントの物理的制約を満たすナビゲーション可能かつ実行可能な 3D 室内シーン生成を実現する「RoboLayout」を提案しています。
7354 件の論文
本論文は、視覚言語モデルを拡張し、到達可能性の制約を微分可能な最適化プロセスに統合することで、サービスロボットや人間など多様なエージェントの物理的制約を満たすナビゲーション可能かつ実行可能な 3D 室内シーン生成を実現する「RoboLayout」を提案しています。
この論文は、NLP 研究者の視点から、化学および材料科学における AI 応用に不可欠な分子表現の主要なデジタル形式と、それらを活用した AI ベースの応用例を概説し、異分野間の研究を支援するガイドを提供するものである。
本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。
この論文は、金融や医療など 5 つの分野にまたがり、複雑な Cypher クエリや現実的なノイズ注入を含む包括的なベンチマーク「NGDBench」を提案し、現在の LLM や RAG 手法が構造化されたグラフデータの管理において構造的推論やノイズ耐性の面で重大な限界を抱えていることを明らかにしています。
本論文は、創薬における AI ツール「Boltz-2」の大規模評価を通じて、その予測速度の利点はあるものの、構造および結合親和性の精度が物理ベースの手法に劣り、リード化合物の同定には物理ベースの手法による検証と精査が不可欠であることを示しています。
本論文は、Neural Operator の長期予測における不安定性と高周波数特徴の損失というジレンマを解決するため、局所的な物理的複雑さに応じて正則化強度を動的に調整する「JAWS」という確率的正則化戦略を提案し、メモリ効率の良い短期軌道最適化によって長期の精度と衝撃波の忠実度を向上させる手法を提示しています。
VDCook は、自然言語クエリと調整可能なパラメータに基づいてリアルタイムの動画検索と合成を自動実行し、MCP を活用して継続的に進化する専門分野向け動画データ構築プラットフォームを提供するシステムです。
本論文は、大規模な非構造化データや基盤モデルの普及に伴う不確実性やスケーラビリティの課題に直面する AI 時代における人間・データ相互作用の現状を分析し、従来の効率性指標を超えて認知・知覚・デザイン原則を統合した新しい人間中心の分析システム構築の方向性を示唆しています。
本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。
本研究は、非線形海洋ダイナミクスを線形常微分方程式で記述する連続時間コップマンオートエンコーダ(CT-KAE)を開発し、従来の自己回帰モデルに比べて長期的な誤差増大やエネルギー漂移が抑制され、かつ数値解法に比べて桁違いに高速な推論を可能にする効率的かつ安定した海洋状態予測手法を提案しています。
この論文は、記述論理の概念をモデル(点付き解釈)に基づいて変更する「モデル変更」の問題を扱い、排除・受容・修正の 3 種類を定義し、修正が単なる排除と受容の組み合わせに還元できないことを示すとともに、EL および ALC 記述論理におけるこれらの操作の整合性に関する正負の結果を提示するものです。
生成 AI は個人のスキル格差を縮小する一方で補完的資産への集中を招くというジレンマを理論モデルで解明し、AI の技術構造や労働市場制度によって格差が縮小するか拡大するかの二つのレジームが存在することを示しつつ、その実証には既存の職業別データではなく未整備なタスクレベルのデータが必要であることを指摘しています。
本論文は、医療分野の EHR データベースにおける自然言語から SQL への翻訳課題に対し、単一ステップの検索に依存する従来の RAG の限界を克服し、論理構造と実体解決を段階的に行うケースベース推論(CBR)に基づく「CBR-to-SQL」フレームワークを提案し、MIMICSQL における最先端の精度と高いサンプル効率を実証したものである。
この論文は、ユーザーの指示と模倣学習のポリシーを基盤とし、自然言語による報酬関数の自動生成と人間のフィードバックを組み合わせて強化学習で微調整を行う「PRISM」という手法を提案し、ロボット把持タスクにおいて既存手法を上回る堅牢性とデータ効率を実現することを示しています。
既存の評価手法の限界を克服し、抽象的な要件からツールを自律的に生成・活用する言語エージェントの能力を多角的に診断する新しいベンチマーク「Tool-Genesis」を提案し、現状の最先端モデルでも初期の微小な欠陥がパイプライン全体で増幅され性能が急激に低下することを明らかにしました。
本論文は、MGWR、ランダムフォレスト、ST-GCN を統合した GeoAI ハイブリッド枠組みを提案し、土地利用と多モーダル交通需要の複雑な時空間的相互作用を高精度に解明することで、都市計画や交通政策への新たな知見を提供しています。
本論文は、物理ファウンデーションモデルにおいて、ドメインに一致するデータでトークナイザーを事前学習させることが、ゼロから学習する場合と比較して計算効率と精度を大幅に向上させることを初めて体系的に実証し、さらに実行時に調整可能な圧縮比率を可能にする柔軟な時空間圧縮演算を提案している。
この論文は、CAD 特有の注釈が不要な点レベルの教師信号を用いて編集可能な BRep を直接生成する多モーダル生成フレームワーク「DreamCAD」と、最大規模の CAD 説明文データセット「CADCap-1M」を提案し、既存手法を凌駕する性能を達成したことを報告しています。
本論文は、エッジ・クラウド・デバイスにまたがるリアルタイム AI サービスにおいて、依存関係グラフのトポロジーが価格安定性とスケーラビリティを決定し、複雑な依存構造をリソーススライスにカプセル化するハイブリッド管理アーキテクチャを導入することで、分散型市場が中央集権的な最適配当を再現しつつ価格変動を最大 75% 削減できることを示しています。
この論文は、自然言語のみで通信する複数の LLM/VLM モジュールからなる「RACAS」という自律制御アーキテクチャを提案し、車輪型ロボット、多関節アーム、水中ドローンなど、全く異なる形態のロボットに対してソースコードやモデルの再学習なしに高レベルの自律タスクを遂行可能にしたことを報告しています。