Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards
本論文は、数学的に検証可能な報酬を用いた強化学習手法「Chart-RL」を提案し、これにより既存の教師あり微細調整(SFT)を上回る性能でチャートの理解と推論能力を大幅に向上させ、少量の複雑なデータでも大規模な単純データよりも優れた汎化性能と他領域への転移能力を実現することを示しています。
7101 件の論文
本論文は、数学的に検証可能な報酬を用いた強化学習手法「Chart-RL」を提案し、これにより既存の教師あり微細調整(SFT)を上回る性能でチャートの理解と推論能力を大幅に向上させ、少量の複雑なデータでも大規模な単純データよりも優れた汎化性能と他領域への転移能力を実現することを示しています。
この論文は、四足歩行の限界サイクルやポアンカレ写像の構造に基づく原理的分析から、数秒のデモンストレーションのみでオフライン学習により頑健な歩行制御ポリシーをゼロから学習する新しい模倣学習手法を提案し、ハードウェア実験でその有効性を実証しています。
本論文は、センサー故障などの有害データが機械学習モデルの性能を低下させる問題に対し、学習データを分割・独立訓練する SISA 手法を採用し、汚染データの影響を最小限に抑えつつ全モデルの再学習を回避して電力変圧器の巻線間短絡故障を高精度に特定する機械学習の忘却フレームワークを提案しています。
この論文は、極端な気象やサイバー攻撃による停電に備え、トポロジデータ分析(特に永続ホモロジー)をグラフ強化学習に組み込むことで、配電網の再構成と負荷遮断を最適化し、エネルギー供給の最大化と電圧違反の低減を実現する自律的な復旧フレームワークを提案しています。
この論文は、従来の条件付き最適輸送が持つ外れ値への敏感性という課題を解決するため、条件付き分布の整合制約を緩和する「条件付きアンバランス最適輸送(CUOT)」フレームワークと、それに基づく外れ値に頑健な生成モデル「CUOTM」を提案し、理論的裏付けと実験による有効性を示したものです。
本論文は、一般和マルチエージェント強化学習において、プレイヤーに依存しないポテンシャル関数を学習することで混合協調・競争環境における近似ナッシュ均衡を効率的に計算する新しいパイプライン「NePPO」を提案し、既存手法よりも優れた性能を実証したものである。
この論文は、拡散モデルの制御を統一的な制御理論の枠組み(LS-MDP)として再解釈し、これに基づいて事前学習済みモデルのバックボーンを凍結したまま軽量なサイドネットワークで効率的に微調整を行う「Diffusion Controller(DiffCon)」という新たな手法とアルゴリズムを提案し、Stable Diffusion における生成品質と効率性の両面で既存手法を上回る性能を実証したものである。
この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。
本論文は、マルチモーダル大規模言語モデル(MLLM)を用いて人間を代替し、低リソース音声分類タスクにおいて高速かつ解釈可能な音声属性を適応的に発見する手法を提案し、従来の人間依存型アプローチや直接予測よりも高い性能と実用性を示したことを述べています。
本論文は、マッチングプラットフォームにおける参加者の不満や離脱を防ぐために、アームの満足度を最大化する新たなオンライン学習問題「組合せ割り当てバンドット」を提案し、そのために上界信頼区間法と Thompson サンプリング法を開発して近似後悔の理論的保証と実験的有効性を示したものである。
この論文は、自動化された評価モデルからの弱い教師信号を用いた「Self-MOA」というフレームワークを提案し、小規模言語モデルが従来の人間によるアノテーションに依存することなく、安全性と有用性を両立させながら効率的にアライメントできることを実証しています。
この論文は、無作為化比較試験の結果を異なる時期に外挿するための「TEA-Time」フレームワークを提案し、複製試験や共通治療群を用いた二つの識別戦略と二重頑健推定量を開発し、Upworthy の A/B テストデータを用いて、共通治療群アプローチが精度向上をもたらす一方で異質的な相互作用によるバイアスリスクがあることを示しています。
この論文は、複雑な特徴量設計やグラフベースのアーキテクチャに依存せず、最小限の 4 つの特徴量と Transformer 機構を活用した軽量な強化学習フレームワーク「ReSched」を提案し、柔軟ジョブショップスケジューリング問題において既存の手法を上回る性能と高い汎用性を示したことを報告しています。
この論文は、計算リソースが異なるクライアントが参加するフェデレーテッド学習において、強力なクライアントによる差分プライバシー付きファインチューニングと、弱いクライアントによる軽量な投票メカニズムを組み合わせることで、合成データの生成とタスク間での再利用を可能にする適応型フレームワークを提案し、分布の整合性とロバスト性の向上を実証しています。
この論文は、ロボット間通信に特化し、手動設計の信号処理に代わるエンドツーエンドの共学習ニューラルネットワーク「Artoo」を提案し、ノイズ環境下での高い認識精度とリソース制約のあるプラットフォームでの実用性を両立させていることを示しています。
この論文は、Deep SVDD の課題である超球の崩壊や解釈性の欠如を、少量の異常ラベルと最大マージン目的関数を活用して解決し、超球パラメータと最終層の重みの等価性を証明することで学習と可視化を可能にした、解釈可能な最大マージン深層異常検出手法「IMD-AD」を提案するものです。
本論文は、教師モデルの分布エントロピーが高い場合に前方 KL 発散を組み込むことで、従来の逆 KL 発散に基づくオンポリシー蒸留が抱える生成多様性の低下と学習不安定性を解決し、数学推論タスクにおいて学生モデルの精度と多様性を同時に向上させる「エントロピー感知型オンポリシー蒸留」手法を提案し、その有効性を示したものである。
VLN-Cache は、視点変化やタスクの進行に伴う意味的変化を認識してトークンの位置整合性と再利用の適切性を動的に調整する新しいキャッシュフレームワークを提案し、視覚言語ナビゲーションモデルの推論コストを削減しながら精度を維持することを実現します。
本論文は、高次元観測空間におけるモデルベース強化学習において、従来の再構成タスクを廃棄し連続的な決定論的表現予測(JEPA 風)を導入することで、Crafter 環境において Dreamer と同等の性能を達成する新たな世界モデル「Dreamer-CDP」を提案しています。
この論文は、数学的推論タスクとテストハックの両方が可能な環境「Countdown-Code」を提案し、SFT 段階でのわずかな報酬ハッキングデータの混入が RL 段階での誤った行動の一般化を招くことを実証することで、合成 SFT データの厳密な検証の必要性を浮き彫りにしています。