Highly Efficient and Effective LLMs with Multi-Boolean Architectures
この論文は、潜伏重みを不要とし、ブーリアン領域での直接微調整を可能にする「マルチカーネルブーリアンパラメータ」を用いた新たなフレームワークを提案し、LLM の複雑さを大幅に削減しながら最先端の量子化・二値化手法を上回る性能を実現することを示しています。
335 件の論文
この論文は、潜伏重みを不要とし、ブーリアン領域での直接微調整を可能にする「マルチカーネルブーリアンパラメータ」を用いた新たなフレームワークを提案し、LLM の複雑さを大幅に削減しながら最先端の量子化・二値化手法を上回る性能を実現することを示しています。
この論文は、ニューラルネットワークに基づく非線形次元削減手法「ニューラル・アクティブ・多様体」を用いて高次元入力空間をモデルの応答に適合した一次元潜在空間へ変換し、その上で層化サンプリングを行うことで、高次元における計算コストの高いモデルの確率的不確実性伝播における分散を効果的に低減する手法を提案しています。
本論文は、グラフ生成モデルにおけるノードとエッジの連動した進化を可能にするマルコフ確率場に基づく最適輸送の概念を導入し、滑らかな確率経路を構築することで訓練の収束性とサンプリング効率を向上させる「BWFlow」という新しいフローマッチングフレームワークを提案しています。
本論文は、Bradley-Terry モデルに基づく LLM ランキングシステムが極めて少量の最悪ケースのデータ削除に脆弱であることを示し、Chatbot Arena のトップモデルが 0.003% のデータ削除で入れ替わる一方、MT-bench のランキングはより堅牢であることを明らかにした。
この論文は、無限幅極限における勾配降下法で学習された単層ニューラルネットワークの出力とガウス過程との間の二次ワッサーシュタイン距離に多項式減衰を示す明示的な上限を与えることで、訓練中の有限幅ネットワークのガウス過程への収束を定量的に評価するものである。
本論文は、SGD で学習されたコンフォーマル化回帰(分位点および中央値回帰)の予測セットの長さがオラクル区間の長さから逸脱する非漸近的な誤差を、訓練データ数、較正データ数、および誤覆率の関数として評価し、の異なる領域における収束率の位相転移を明らかにすることで、予測セットの冗長度を制御するためのデータ配分の指針を提供する。
本論文は、過剰パラメータ化された 2 層 ReLU ネットワークにおけるデータ幾何学的構造が、安定性の限界以下での学習ダイナミクスを通じて、モデルが共有パターンを捉える一般化解か、あるいは過学習に陥る解のどちらを選択するかを決定づけることを理論的に示したものである。
この論文は、線形最小二乗法において最大影響力を持つデータ部分集合の分布を厳密に導出・分析することで、その影響力が自然な変動を超えているかを統計的に検定する新たな枠組みを提案し、経済学や生物学などの分野における争点となっている知見の解決に貢献しています。
本論文は、複数の予測モデルの非適合スコアを e 値に変換し対称的な集約関数で統合する「SACP」という新規手法を提案し、従来法よりも効率的かつ信頼性の高い予測区間を生成できることを理論的・実験的に実証しています。
この論文は、ベイズ非パラメトリック手法を用いて有限混合モデルの各成分を非パラメトリックに学習する枠組みを提案し、成分分布の識別可能性と事後収束性を理論的に証明するとともに、効率的な MCMC アルゴリズムを開発してシミュレーションおよび実データでその有効性を示しています。
本論文は、ヒルベルト空間間の未知作用素を有限のノイズ入り入力出力サンプルから推定する問題におけるミニマックスリスクの理論を構築し、リプシッツ連続作用素に対してサンプルサイズの代数的な減少率ではリスクが収束しない「サンプル複雑性の呪い」が示されることを明らかにしています。
本論文は、計算コストの高い演算子を含むベイズ線形逆問題において、近似演算子を用いた中間変数の生成と正確な演算子による精緻化を組み合わせる「Latent-IMH」というサンプリング手法を提案し、その理論的解析と数値実験を通じて、NUTS などの既存手法を凌駕する計算効率を実証するものである。
本論文は、トランスフォーマー層を最適化アルゴリズムの反復として解釈する変分枠組みを提案し、これに基づいてナステロフ加速法を導入した「YuriiFormer」を開発することで、TinyStories や OpenWebText などのタスクにおいて nanoGPT ベースラインを上回る性能を達成したことを示しています。
この論文は、分布のドリフトが発生する非定常データストリームにおけるオンライン共形予測の訓練条件付き累積後悔を最小化し、分布シフト検出を組み込んだ分割共形法およびフル共形法によって、それぞれ最小最大最適性の後悔保証を達成する手法を提案し、理論的保証と数値実験でその有効性を示したものである。
本論文は、一般化双線形選好モデルを用いた文脈付きオンライン RLHF 問題において、強凸正則化と低ランク構造を活用して双対ギャップを推定誤差の二乗で抑えることを示し、高次元環境で統計的に効率的な後悔 bound を達成する 2 つのアルゴリズムを提案する。
本論文は、グラフ出力に対する分布フリーの被覆保証を提供するため、Z-グロモフ・ワッサーシュタイン距離(実装上は FGW)に基づく非適合度定義と、グラフ空間に対応した適応的予測集合を得るためのスコア・コンフォーマライズド量子回帰(SCQR)を組み合わせた、新しいコンフォーマル予測フレームワークを提案しています。
この論文は、グラフ構造信号の複雑な時空間依存関係を捉えるため、結合フーリエ変換を用いて時空間スペクトル領域での学習を可能にする FreST Loss を提案し、既存の手法よりも優れた予測性能を実現することを示しています。
この論文は、候補となる平衡状態を入力としてシステムパラメータを推論する「平衡情報ニューラルネットワーク(EINN)」という深層学習手法を提案し、複雑な力学系における臨界遷移や分岐を従来の数値シミュレーションよりも効率的に検出できることを示しています。
この論文は、記号列の因果方向発見のためにアルゴリズム情報理論とシャノン情報理論を統合し、候補原因におけるコンパクトな規則パターンが結果変数をどのように制約するかを辞書ベースのパターンエントロピー(DPE)で定量化する新しい枠組みを提案し、多様な合成および実データセットにおいて既存手法を上回る性能を実証したものである。
本論文は、コラッツ予想の停止時間を対象に、共変量に基づくベイズ階層モデルと奇数ブロック分解に基づく生成モデルの 2 つのアプローチを比較検討し、低次モジュラ構造が停止時間の不均一性を説明する上で重要であることを示しています。