Enhancing multimodal analogical reasoning with Logic Augmented Generation
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
7354 件の論文
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
本論文は、大規模言語モデルを活用したマルチエージェントフレームワーク「Foam-Agent」を提案し、自然言語プロンプトからメッシュ生成、計算、可視化に至る CFD ワークフローを自動化することで、専門知識の壁を下げ、88.2% の高い実行成功率を達成したことを示しています。
本論文は、高忠実度かつ長期的な一貫性を持つリアクティブダンス生成を実現するため、細やかな空間表現を可能にする階層的有限スカラー量子化(HFSQ)と、効率的な長系列生成を可能にするブロック単位局所コンテキスト(BLC)戦略を備えた拡散モデル「ReactDance」を提案するものです。
この論文は、衝突に至るまでのリスクを考慮した新しい責任感応型安全(RSS)拡張概念と楕円体関数に基づく階層的な報酬設計を提案し、自動運転の強化学習において衝突率を 21% 削減しつつ走行効率を維持する手法を提示しています。
本論文は、HD マップに基づく境界線と運動学的制約を統合した新しい制約付き回帰フレームワークを提案し、自律走行における軌道予測の道路外逸脱や物理的非現実性を大幅に低減し、未知のシナリオに対する堅牢性を向上させることを示しています。
本論文は、強化学習を用いた自律走行エージェントの訓練において、エージェントの能力に応じて自動で難易度を調整する「教師」によるカリキュラム学習フレームワークを提案し、固定シナリオやドメインランダム化と比較して、より効率的な学習と高い汎化性能を実現することを示しています。
本論文は、因果推論における統計的落とし穴(例えば Simpson のパラドックスや選択バイアスなど)を LLM が克服できるかを厳密に評価するための新しいベンチマーク「CausalPitfalls」を提案し、その評価を通じて現在の LLM が統計的因果推論において重大な限界を抱えていることを明らかにしています。
本論文は、複雑な CLI 入力のモデル化におけるデータ不足を解消するため、文法制約と自己教師あり不可縮性信号を用いて Bash 実行挙動を捉える環境「ShIOEnv」を提案し、これにより収集した 210 万組のデータセットが従来の実行フリー手法を上回る精度でユーザー入力の挙動をモデル化できることを示しています。
本論文は、強化学微調整(RFT)を用いて Python 系画像編集ツールを統合し、テキストと中間的な視覚的推論ステップを交互に生成することで、VLM が「画像を使って思考する」能力を獲得する初のフレームワーク「VTool-R1」を提案し、構造化された視覚的質問応答タスクにおける推論性能の向上を実証しています。
この論文は、検索結果が矛盾・ノイズ・無効であるような状況における検索拡張言語モデルの推論能力を評価する新たなベンチマーク「SealQA」を提案し、最先端のモデルさえもそのような環境で著しく低い性能を示すことを明らかにしています。
本論文は、タスク依存関係をモデル化する DAG 生成と並行性を最大化するグラフ再走査の 2 段階プロセスを採用し、新しい評価データセット「X-DAPT」と共に双腕ロボットの並行タスク計画の効率性と信頼性を大幅に向上させる LLM 駆動型フレームワーク「RoboPARA」を提案するものである。
この論文は、自然言語による時間的コンテキスト更新を意思決定プロセスと分離し、推論のみに基づくミドルウェア「LUCIFER」を通じて制御に直接関連する信号に変換する「シグナル契約」を提案し、捜索救助シナリオにおける安全性と情報収集効率の向上を実証したものである。
非エルミート結晶のエネルギー準位から自動抽出された 1160 万枚の空間多重グラフを含む大規模データセット「HSG-12M」を提案し、既存のグラフベンチマークが見過ごしていた幾何学的情報の重要性を浮き彫りにするとともに、物性物理学におけるデータ駆動型発見と幾何学意識型グラフ学習の新たな基盤を確立しました。
この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。
本論文は、グラフ生成モデルにおけるノードとエッジの連動した進化を可能にするマルコフ確率場に基づく最適輸送の概念を導入し、滑らかな確率経路を構築することで訓練の収束性とサンプリング効率を向上させる「BWFlow」という新しいフローマッチングフレームワークを提案しています。
本論文は、Kolmogorov-Arnold ネットワークと構造化状態空間モデルを Neural ODE に統合した「SKANODE」を提案し、非線形動的システムから物理的に解釈可能な潜在状態を復元するとともに、支配方程式を記号的に発見する高精度かつ解釈性の高い学習枠組みを確立したものである。
本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整(RFT)が教師あり微調整(SFT)に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。
本論文は、高品質な英語データの評価信号を単一の評価器に統合し翻訳を通じて多言語データに転送する「MuRating」フレームワークを提案し、これにより多言語大規模言語モデルの事前学習におけるデータ選択の精度と性能を大幅に向上させることを示しています。
本論文は、力センサを備えない低コストマニピュレータ向けに、非線形ダイナミクス補償と外乱オブザーバを統合したセンサレス4チャネル双方向制御を提案し、高速・接触動作における安定した遠隔操作を実現するとともに、その力フィードバックを用いた模倣学習の成功率向上を実証したものである。
本論文は、複雑な視覚的推論を包括的に評価する新たなベンチマーク「TreeBench」を提案し、その課題を克服するために強化学習を用いて局所化と推論を同時に監督するトレーニング手法「TreeVGR」を開発し、最先端モデルの性能向上を実証しています。