FlashOptim: Optimizers for Memory-Efficient Training
本論文は、マスター重みの分割と 8 ビット最適化状態の量子化誤差を低減するコンパンド関数を導入することで、モデル品質を損なわずにパラメータあたりのメモリ使用量を 50% 以上削減し、AdamW などのオプティマイザのメモリ要件を大幅に低下させる「FlashOptim」という最適化スイートを提案しています。
3797 件の論文
本論文は、マスター重みの分割と 8 ビット最適化状態の量子化誤差を低減するコンパンド関数を導入することで、モデル品質を損なわずにパラメータあたりのメモリ使用量を 50% 以上削減し、AdamW などのオプティマイザのメモリ要件を大幅に低下させる「FlashOptim」という最適化スイートを提案しています。
この論文は、引用グラフ上の各ノードで局所的なリーマン計量を学習し、測地線距離に基づく幾何学的な意味検索を行う「Geodesic Semantic Search (GSS)」を提案し、従来の手法と比較してリコールを大幅に向上させつつ、解釈可能な引用経路の提供と計算コストの削減を実現したことを報告しています。
この論文は、LLM による相互評価(LLM-as-a-judge)において、バイアスのかかった判断モデルが意図せずとも選好ラベルを通じて学生モデルに行動特性を伝達しうる「潜在信号」の存在を明らかにし、超人的 AI の監視にはこの伝達を検知・軽減する仕組みが必要だと主張しています。
この論文は、敵対的な合意設定における大規模言語モデル(LLM)ベースのエージェント群の協調を評価した結果、敵意がない環境であっても合意の達成が不安定であり、特にグループ規模の拡大や悪意あるエージェントの存在により失敗(主にライブネスの喪失)が支配的となることを示し、現在の LLM エージェント群による信頼性の高い協調への依存に警告を発しています。
この論文は、推論能力を活用して大規模言語モデルの意見整合性を向上させる手法を提案し、米欧スイの政治データで有効性を示しつつも、バイアスの完全除去にはさらなる仕組みが必要であると結論付けています。
本論文は、並列ベイズ最適化において既存手法が抱える実用性や理論保証の課題を克服し、低計算コストと非同期処理への対応を維持しながら、ランダム化クリギング・ビリーバー法を提案し、そのベイズ期待後悔の保証を実証したものである。
この論文は、文字列データ向けに編集距離(Levenshtein 距離)を改良した局所外れ値因子法と、階層的左正則表現学習に基づく新しい正則表現推定法の 2 つの外れ値検出アルゴリズムを提案し、それぞれのデータ構造や外れ値の性質に応じて有効性が異なることを実証的に比較検討したものである。
この論文は、実世界の国際制裁データから構築された大規模なエンティティマッチングベンチマーク「OpenSanctions Pairs」を公開し、既存のルールベース手法を大幅に上回る精度で LLM が機能することを実証するとともに、今後の研究の焦点をペアマッチングからブロッキングやクラスタリングなどのパイプライン構成要素へシフトさせる必要性を提言しています。
本論文は、ニューラルオペレータのモジュール構造(リフティング・伝播・復元)を活用し、リフティング段階にのみ確率的摂動を注入することで、計算効率と空間的忠実性を両立した構造化エピステミック不確実性推定手法を提案し、複雑な偏微分方程式の surrogate モデルにおける信頼性の高い不確実性評価を実現することを示しています。
この論文は、推論スループットの最適化を従来の実験的アプローチに頼らず、事前学習済み大規模言語モデルのハイパーパラメータと推論効率を理論的に結びつけることで、推論システムの構成要素を事前学習前に最適化可能にする「Speculative Decoding Scaling Laws (SDSL)」を提案しています。
本論文は、ESP32 マイコン上で 30ms の推論遅延を実現し、外部計算リソースに依存せずリアルタイム自律航行を可能にする、2 万 3 千パラメータの量子化 2D CNN を用いたエンドツーエンドの TinyML システム「TinyNav」を提案するものである。
本論文は、時間系列の因果推論における基礎モデルの構築を可能にするため、介入データを含む合成時系列構造因果モデルを生成するフレームワーク「CausalTimePrior」を提案し、これにより事前適合ネットワーク(PFN)が未知のモデルに対して文脈内因果効果推論を遂行できることを実証しています。
この論文は、データストリームにおける概念ドリフトの検出精度を向上させるため、多数のメタ情報特徴量からなる一意な「指紋」を動的に重み付けして概念を表現する汎用フレームワーク「FiCSUM」を提案し、実世界および合成データセットにおける既存手法を上回る性能を実証したものである。
この論文は、可逆的なグラフ直列化と BPE を組み合わせてグラフをシーケンス表現に変換する新しいトークナイザを提案し、アーキテクチャの変更なしに Transformer をグラフデータに適用可能にし、14 のベンチマークで最先端の性能を達成したことを示しています。
本論文は、スパースな混合専門家(MoE)トランスフォーマーにおいて、異なるタスクが層を超えた専門家の活性化パターンを要約する「ルーティング署名」として明確に区別可能であることを実証し、ルーティングメカニズムが単なる負荷分散ではなくタスクに敏感な計算の構成要素であることを示しています。
この論文は、一般の非再生到着過程の重ね合わせを解析的に扱う難しさを克服するため、合成データで訓練された深層学習モデルを用いて、複数の到着ストリームの低次モーメントと自己相関を高精度に推定するスケーラブルな学習ベースの重ね合わせ演算子を提案し、これにより複雑な待ち行列ネットワークの分布性能解析を可能にするものである。
本論文は、被験者間の個人差に起因する課題を解決するため、個々の脳波ダイナミクスと学習可能なグループプロトタイプおよび多被験者共鳴モデルを統合した「グループ共鳴ネットワーク(GRN)」を提案し、感情認識タスクにおいて既存手法を上回る性能を達成したことを報告しています。
本研究は、複数の地域に共通する短期の気象・エネルギー需要パターンを捉える高解像度の気象情報に基づく代理モデルを提案し、単一の地点での学習のみで異なる気候帯の建物エネルギー需要を高精度に予測可能にするデータ効率性の高い手法を開発した。
本論文は、冷たいスタートやドメインシフトといった課題に対処し、未見の分子スキャフォールドやタンパク質ファミリーに対する汎化性能を飛躍的に向上させるため、アフィニティを考慮した潜在拡散モデル「Co-Diffusion」を提案し、その有効性を示しています。
この論文は、 sawtooth 関数の効率的な表現を可能にする 3 次元のネットワークアーキテクチャを導入することで、解析関数および関数に対する指数関数的かつ非漸近的な高精度近似を実現し、パラメータ効率の向上に寄与する理論的基盤を確立したものである。