Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation
この論文は、ラベル付けされていない未分割の実演データから記号抽象と目標指向のスキルを同時に学習し、記号プランナーとコンプライアント制御を組み合わせることで、動的環境におけるリアルタイムな失敗回復と構成性汎用化を実現する「SymSkill」という統合フレームワークを提案しています。
5295 件の論文
この論文は、ラベル付けされていない未分割の実演データから記号抽象と目標指向のスキルを同時に学習し、記号プランナーとコンプライアント制御を組み合わせることで、動的環境におけるリアルタイムな失敗回復と構成性汎用化を実現する「SymSkill」という統合フレームワークを提案しています。
この論文は、量子コンピュータの制御パルススケジュールを形式化するための「GRAMPUS」と呼ばれる、時間情報を格(grade)として表現するgraded 型理論を提案し、その構文、意味論、および完全性と健全性の定理を確立するものである。
この論文は、企業開示文書から LLM を用いて文脈を考慮した指標の変化を抽出・定量化する新たなフレームワークを提案し、従来の手法と比較して 2 倍以上のリスク調整済みアルファを達成する高い予測力を示したことを報告しています。
この論文は、被告人が「ハッキング(第三者犯行)の抗弁」を主張した「R v F」事件における実証的調査と陪審への証拠提示を通じて、デジタル・フォレンジック調査官が同抗弁に対処し、無実の者を釈放し有罪を立証するための実践的な教訓と技術を提供する初の事例研究である。
この論文は、クエリ複雑性と時間複雑性の関係を体系的に研究し、時間 - クエリ階層定理の確立や半空間の距離近似問題における細粒度の時間下界の証明を通じて、プロパティテストにおける計算量的な困難性の地図を描き出すことを目指しています。
この論文は、ナビゲーションタスクにおける従来の経路模倣から「意思決定の理解」へのパラダイム転換を提案し、新たなデータセットと報酬関数を用いて大規模視覚言語モデルの汎化性能と実世界ロボットでのナビゲーション能力を飛躍的に向上させた CompassNav を紹介しています。
この論文は、スケッチの抽象性と疎性を踏まえ、スケッチ・ストローク・点の 3 段階の表現を理論的に検証し、疎グラフと密グラフを統合した「SDGraph」という深層学習アーキテクチャを提案することで、分類・検索・生成タスクにおいて最先端の性能を達成したことを報告しています。
本論文は、メトリック深度事前知識を最適化フレームワークに直接組み込むことで、大規模シーンにおいて COLMAP に比べて最大約 40 倍の高速化を実現しつつ、既存の古典的および学習ベースの手法と同等の精度を維持する、完全な GPU 基盤のグローバル SfM システム「InstantSfM」を提案するものである。
本論文は、ローカルウィンドウに基づく階層的注意機構と低解像度のグローバルガイダンスを組み合わせることで、従来の拡散モデルの計算コストの制約を克服し、10 倍以上の高速化と低メモリ消費を実現しながら 8K 超の超高分解能画像生成を可能にする「UltraGen」という新規フレームワークを提案しています。
本論文は、3D ガウススプラッティング表現とマルチモーダル大規模言語モデルエージェントを組み合わせ、曖昧な指示にも対応可能なオープンワールドでの 3D 推論セグメンテーションおよび編集タスクを実現する「REALM」フレームワークを提案し、新規な「Global-to-Local Spatial Grounding」戦略によって高い精度と汎用性を達成したことを報告しています。
本論文は、従来の行列逆行列計算の計算コスト高という課題を克服し、サンプリングに基づく効率的なアルゴリズムと、大規模ネットワークにおいても最適解を高精度に特定する非同期決定論的アルゴリズムを提案することで、ソーシャルネットワーク内の内部意見の調整による世論最大化を実現する手法を確立した。
複雑ネットワークにおける重複ノードは、単純および複雑な伝染プロセスの各段階で非重複ノードよりも大きな影響力を持ち、その効果は「サークル」の定義方法に依存し、局所的な属性とトポロジー的重要性の両方を反映することが示されました。
本論文は、人間の意図を最適解としてソフトウェアに自動変換する探索型コンパイラ「Compiler.next」を提案し、認知アーキテクチャやモデル構成の動的最適化を通じて、AI 原生のソフトウェア開発を民主化し、Software Engineering 3.0 の実現を可能にする新たなパラダイムを提示しています。
本論文は、推薦システムにおけるアイテムの長期尾部問題に対処するため、協調情報のノイズを適応的に除去し、行動とコンテンツの整合性を最適化するとともに行動ごとの重みを動的に学習する新しいフレームワーク「ADC-SID」を提案し、その有効性を示したものである。
本論文は、大規模言語モデルを中核とし、53 種類の専門ツールと 23 種類の画像モダリティを動的に統合する「EyeAgent」という新しい自律型 AI フレームワークを提案し、眼科診断の精度向上や医師との協働による報告品質の改善など、臨床現場での信頼性と汎用性を実証したものである。
この論文は、音声圧縮コーデックの選択において圧縮効率だけでなく聴覚的な知覚品質も考慮すべきであると主張し、複数のコーデックを圧縮性能、可視化、および PEAQ スコアを用いて評価することで、デジタル音声圧縮技術が知覚品質に与える影響を明らかにし、コーデック選定への示唆を提供しています。
この論文は、CT の体積知識を潜在空間での 2 次元投影予測を通じて学習し、3 次元解剖学的構造を内面化することで胸部 X 線画像の表現学習と疾患診断を革新する新しい世界モデル「X-WIN」を提案し、その優れた性能を実証しています。
本論文は、異なるタスクに特化した Vision-Language-Action (VLA) モデルを直接マージしても失敗する課題に対し、VLM における LoRA アダプターの方向性不一致とアクション専門家の層間依存性を解消する新たなアーキテクチャ「MergeVLA」を提案し、単一モデルで複数のスキルを統合的に習得・実行可能にしたことを示しています。
この論文は、複雑な実世界画像のベクトル化において視覚忠実度と編集性を向上させるため、明暗のコントラストを重視した「Clair Obscur」の原理に基づき、アルベド、陰影、光の層を統一されたベクトル表現で分解する新しいフレームワーク「COVec」を提案しています。
本論文は、強化学習における世界モデルの楽観的バイアスを解消し、対照的合成によって危険を正直に予測する「公平な世界モデル」を構築することで、安全違反を大幅に削減するエンドツーエンド自動運転の閉ループ強化学習フレームワーク「AD-R1」を提案しています。