How Far Can Unsupervised RLVR Scale LLM Training?
本論文は、ラベルなし強化学習(URLVR)における内在的報酬がモデルの初期分布を鋭化させるメカニズムにより、信頼性と正解性の整合性次第で性能が一旦向上後に崩壊するという限界を理論的・実験的に解明し、その一方で計算的非対称性に基づく外部報酬がこの壁を越える可能性を示唆しています。
7103 件の論文
本論文は、ラベルなし強化学習(URLVR)における内在的報酬がモデルの初期分布を鋭化させるメカニズムにより、信頼性と正解性の整合性次第で性能が一旦向上後に崩壊するという限界を理論的・実験的に解明し、その一方で計算的非対称性に基づく外部報酬がこの壁を越える可能性を示唆しています。
本論文は、高輝度 LHC 実験における荷電粒子の軌道追跡という課題に対し、古典的ニューラルネットワークとパラメータ化量子回路を交互に配置したハイブリッド型量子グラフニューラルネットワーク(QGNN)を改良・評価し、従来の設計に対する収束性の向上を実証したものである。
本論文は、Nesterov 加速をモデルパラメータと確率測度の両方に導入することで、最大周辺尤度推定を高速化する「Momentum SVGD-EM」と呼ばれる新しいアルゴリズムを提案し、低次元から高次元の多様なタスクにおいて収束を著しく改善することを示しています。
本論文は、AI 支援進化探索フレームワーク「AlphaEvolve」を用いて双方向取引におけるランダム・オファラー機構の最悪ケースを探索し、従来の予想(2 倍)や既存の反例(約 2.02 倍)を更新する 2.0749 倍という新たな下界を確立したものである。
この論文では、高次元変数間の因果効果が低次元の要約統計量(ボトルネック)に依存するという仮定に基づき、タスク固有の次元削減を柔軟に実現しつつ、標準的な学習アルゴリズムで推定可能な新しい構造因果モデル「構造因果ボトルネックモデル(SCBMs)」を提案し、その同定性や情報ボトルネックとの関連、および低サンプル転移学習における効果推定の利点を示しています。
この論文は、従来のトークン化手法では高ビット深度の音声処理が困難だった課題に対し、語彙サイズを一定に保つ「Trilobyte」というバイトレベルのトークン化方式を提案し、24 ビットフル解像度音声における実用的な損失なし圧縮を可能にしたことを報告しています。
本論文は、分割フェデレーティッド学習(SFL)におけるモデル分割層とクライアント割り当てを最適化する NP 困難な問題を定式化し、精度を 3% 向上させながら遅延を 20%、オーバーヘッドを 50% 削減する初の精度考慮型ヒューリスティックアルゴリズムを提案するものである。
この論文は、模倣学習や既存の自己反省手法の限界を克服し、行動の良し悪しを自主的に判断する推論能力を強化する強化学習パラダイム「Agentic Critical Training (ACT)」を提案し、複数のエージェントベンチマークおよび一般推論タスクにおいて顕著な性能向上と分布外汎化能力を実証したものである。
この論文は、従来の静的な評価手法の限界を克服し、オープンワールドにおける時間的変化や分布のシフトを反映する「Impermanent」というライブベンチマークを GitHub のオープンソース活動データに基づいて提案し、時系列予測モデルの真の汎化能力を評価する新たな枠組みを提示しています。
本論文は、時系列集約化による情報欠如を克服する混合頻度モデルを提案し、CAD/USD 為替レートの予測を通じてその有効性を示すことで、為替レートの予測に関するメーゼ・ローゴフのパズルへの新たなアプローチを提供しています。
この論文は、深層学習モデルの判断を臨床医の認知に基づいた医療概念で説明可能にするため、医療概念間の関係を構築する概念ベースのグラフ畳み込みニューラルネットワーク(GCN)を用いた解釈可能な胎児超音波画像分類フレームワークを提案し、その有効性を検証したものである。
本論文は、ニューラルネットワークおよび LSTM モデルを用いて COVID-19 とデング熱の類似した流行傾向を分析し、COVID-19 のデータからデング熱の感染数を推定する予測モデルを構築することで、データが不足している国における公衆衛生政策への支援を可能にすることを示しています。
本論文は、PMU の高サンプリングレートを活用し、ファクターグラフ上のグラフニューラルネットワークを用いて、高い精度とロバスト性を保ちながら電力系統の線形状態推定を高速かつスケーラブルに実現する手法を提案しています。
この論文は、潜在交絡下での因果関係を表す祖先グラフの分布推論と、事前知識および不確実な事後の専門家フィードバックの統合を可能にする、多様性指向の強化学習アルゴリズム「Ancestral GFlowNet (AGFN)」を提案し、その収束性と実データでの有効性を示しています。
この論文は、任意のヒルベルト空間における対象を一般の線形サンプルから学習するための統一的な枠組みを提案し、モデルクラスの構造的特性とサンプリング演算子の分布に対する「変動」の概念に基づいて、既存の圧縮センシングや行列スキッチングなどの結果を統合・拡張する新たな学習保証を確立するものです。
本論文は、物理メモリのエネルギー障壁を最適化ダイナミクスに合わせて調整する「学習インメモリ」方式のニューロモルフィック最適化器における、モデル数や収束速度などのパラメータに依存するエネルギー消費の理論的下限を導出する。
この論文は、ポーズ情報を活用した文脈内視覚学習(PA-ICVL)を視覚言語モデルに組み込むことで、アニメーションキャラクター画像における構造的な視覚的幻覚の検出精度を大幅に向上させる新しい手法を提案し、その有効性を示しています。
BInD は、拡散モデルと知識ベースのガイダンスを活用して分子とそのタンパク質との相互作用を共生成し、標的特異的な相互作用、分子特性、局所幾何学といった多目的をバランスよく達成する構造ベース創薬手法として提案され、最先端の手法と同等以上の性能を示すとともに、NCI 駆動の分子設計・最適化を通じて結合親和性や特異性の向上を実現するものである。
本論文は、x ベクトルによるクラスタリングを用いた教師なし学習と、モンテカルロドロップアウトを応用したベイズ的バッチ能動学習を組み合わせた 2 段階の能動学習パイプラインを提案し、音声認識モデルの学習に必要なラベル付けコストを大幅に削減しながら精度を向上させる手法を確立したものである。
本論文は、従来の誤差逆伝播法よりも生物学的に妥当で、並列化により計算効率も向上し、教師あり・教師なし学習を統一的に扱える予測符号化ネットワーク(PCN)の理論的基盤と現代機械学習における位置づけを包括的にレビューし、その将来性を示唆するものである。