More Than Memory Savings: Zeroth-Order Optimization Mitigates Forgetting in Continual Learning
本論文は、ゼロ次最適化が継続学習における忘却を抑制する一方で学習能力を低下させるトレードオフを明らかにし、安定性と可塑性の両立を実現する効率的な手法「ZO-FC」を提案しています。
3761 件の論文
本論文は、ゼロ次最適化が継続学習における忘却を抑制する一方で学習能力を低下させるトレードオフを明らかにし、安定性と可塑性の両立を実現する効率的な手法「ZO-FC」を提案しています。
この論文は、ベイズ的観点からプロンプトによる文脈内学習と内部活性化の操作という一見異なる LLM 制御手法を、それぞれ「証拠の蓄積」と「概念の事前確率の変更」として統一的に説明する予測モデルを提案し、両者の相加性や急激な行動変化など新たな現象を予測可能にしました。
本論文は、継続学習向けに推論と学習の両方を効率的に支援するため、マイクロスケーリング(MX)形式の乗算累積演算において既存の設計が抱える精度と効率のトレードオフを解決するハイブリッドな精度スケーラブルな削減木を提案し、SNAX プラットフォームへの統合を通じて MXINT8、MXFP8/6、MXFP4 各形式で高エネルギー効率と高スループットを実現したことを報告するものである。
本論文は、トランスフォーマーベースの Producer-Refiner 構造と共収束軌道の反復的洗練を採用し、3D 血管中心線の抽出においてトポロジの正確性と精度を向上させつつ、既存の最先端手法に比べて推論を高速化しパラメータ数を大幅に削減する「RefTr」というフレームワークを提案しています。
本論文は、低ランクテンソル分解に基づく高次クロスモーダル相互作用の効率的な捉え方と、競合する目的関数間の勾配競合を緩和するパレート最適方向への更新制御を組み合わせることで、対話におけるマルチモーダル感情認識の精度と訓練の安定性を向上させる「Cross-Space Synergy(CSS)」という統合フレームワークを提案し、IEMOCAP および MELD データセットにおいて既存手法を上回る性能を実証したものである。
この論文は、単一ドメインデータでの教師あり学習が情報ボトルネック最適化によりドメイン特徴の崩壊を引き起こし、分布外検出を破綻させるという理論的メカニズムを情報理論的に解明し、事前学習表現を用いたドメインフィルタリングによる解決策を提案するものです。
本論文は、樹木ベースのアンサンブル学習と分布回帰を組み合わせたカスタム AutoML 手法を開発し、暴力紛争の将来発生確率分布を推定することで、従来の点予測の限界を克服し、PRIO-GRID 月次レベルでの 1 年先までの予測精度を向上させることを示しています。
この論文は、過剰パラメータ化されたニューラルネットワークにおいて、損失が平坦な経路が存在するにもかかわらず最適化が単一の盆地に閉じ込められるというパラドックスを、曲率の変動と最適化ノイズの相互作用によって生じるエントロピー障壁(曲率誘起のエントロピー力)によって説明し、これが解の局在化を支配していることを明らかにしています。
本論文は、サイバー脅威インテリジェンス(CTI)分野におけるファインチューニング済み大規模言語モデルのプライバシー漏洩を防ぐため、再学習を回避し数ショット学習とプライバシー分類器・編集機能を統合した汎用的なフレームワーク「CTIGuardian」を提案し、従来の NER ベースの手法よりもプライバシーと有用性のバランスが優れていることを実証しています。
非自己随伴固有値問題のスペクトル不安定性やモード遷移に対処するため、フーリエ神経作用素や幾何学的適応 POD 基底、明示的なバンド型クロスモード混合機構を統合した「深層固有空間ネットワーク(DEN)」を提案し、Steklov 固有値問題への適用、固有空間のリップシッツ連続性の証明、および誤差評価を通じてその有効性と効率性を検証した。
この論文は、従来の研究が想定してきた単一の隠れた密な部分行列だけでなく、現実のネットワークでより一般的にみられる「複数の密な部分行列」が存在する状況においても、凸計画法を用いて多項式時間で正確に復元できるための十分条件を確率的および決定論的な枠組みで導出することを提案しています。
本論文は、金融時系列のノイズや非定常性、クロスセクション依存性に対処し、直接リスク調整済みリターンを最適化するエンドツーエンドの学習型ウェーブレット・トランスフォーマー「WaveLSFormer」を提案し、複数の業界にわたる大規模実験で既存のモデルを大幅に上回る収益性とリスク調整後リターンを達成したことを報告しています。
この論文は、LLM ベースの音声認識システムをテキストデータのみで新規ドメインに適応させる際、従来のファインチューニングでは生じる音声とテキストのモダリティ間の整合性の崩壊を防ぐため、ノイズを含むテキストからのクリーンな転写の復元という「テキスト去雑音」タスクとして適応プロセスを再定義する軽量な手法を提案し、既存の最良手法を凌ぐ性能向上を実現したことを報告しています。
この論文は、単一エージェントの能力拡張(深度スケーリング)の限界を補完するため、マルチエージェント強化学習を用いて並列実行を最適化する「WideSeek-R1」を提案し、小規模モデルでも大規模単一モデルに匹敵する広範な情報探索タスクでの性能向上と、並列エージェント数の増加に伴う一貫した性能改善(幅スケーリングの有効性)を実証しています。
この論文は、量子リザーバコンピュータの固定された量子特徴マップに対して、カーネル法を用いて最適な測定演算子を導出する手法を提案し、画像分類や時系列予測などのタスクにおいて予測誤差を最小化し、大規模な量子システムにおける効率的な実装を可能にするものである。
Prometheus フレームワークを拡張し、3 次元古典系および量子多体系における相転移の無教師発見を実現し、3 次元イジングモデルの臨界温度や臨界指数の高精度な同定、量子臨界点の検出、さらに無秩序系におけるエキゾチックな無限乱数臨界性の発見を通じて、解析解が存在しない物理領域における相図探索の汎用性を確立しました。
この論文は、事前学習済みモデルをスパース化すると精度が低下する問題を解決するため、密な事前学習と再帰的学習を組み合わせることで、推論時に任意の疎なパターンに柔軟に切り替え可能でありながら高密度モデルと同等の精度を維持する「RAT+」というアーキテクチャを提案しています。
本論文は、自己教師あり音声モデルが、音声特徴に対応する線形ベクトル方向を学習しており、これらのベクトルの演算やスケーリングによって音韻論的な関係(例:有声・無声の連続性)を捉える「音韻ベクトル演算」が可能であることを、96 言語にわたる包括的な研究で実証したものである。
質量スペクトルから分子構造を直接推定する新しい生成モデル「MSFlow」を開発し、従来の手法と比較して最大 14 倍の精度向上を実現したことを報告する論文です。
本論文は、マルチモーダル大規模言語モデルの強化学習において、分布認識型の利点重み付けと非対称活性化関数という 2 つのメカニズムを導入し、専門家のガイダンスによる制御可能な探索を実現することで、エントロピー崩壊や過剰な搾取を回避し、探索と活用の安定したバランスを達成するハイブリッド方策 RLVR フレームワーク「CalibRL」を提案するものである。