Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment
本論文は、大規模言語モデルの構造化プルーニングにおいて、微細粒度と粗粒度の重み重要度評価を適応的に融合する「HyWIA」手法を提案し、既存手法を上回る性能を達成することを示しています。
4433 件の論文
本論文は、大規模言語モデルの構造化プルーニングにおいて、微細粒度と粗粒度の重み重要度評価を適応的に融合する「HyWIA」手法を提案し、既存手法を上回る性能を達成することを示しています。
この論文は、大規模な画像分類タスクにおける計算コストとメモリ制約を克服するため、フィッシャー情報量の近似と二値分類タスクの構築によって BAIT アルゴリズムの効率性とスケーラビリティを大幅に向上させる手法を提案し、ImageNet などの大規模データセットでも高性能を維持しながら実行可能にしたことを示しています。
この研究は、28 年間の監視データを用いた説明可能な機械学習(ランダムフォレスト)により、アドリア海(トリエステ湾)におけるムラサキガイの DSP 中毒発生を予測し、Dinophysis 属の種や塩分・河川流量・降水量などの主要な予測因子を特定することで、早期警戒システムの改善と持続可能な養殖の実現に貢献しました。
この論文は、ランダム化停止時間と累積残差エントロピー正則化を用いて最適停止問題を特異制御問題として定式化し、その解を導出するモデルベースおよびモデルフリーの強化学習アルゴリズムを提案し、その収束保証と高次元への拡張性を示しています。
この論文は、偏微分方程式(PDE)の求解において、従来のトランスフォーマーの限界を克服し、構造化状態空間モデル(SSM)の特性を活用して長距離依存性と連続的なダイナミクスをより効果的に捉える「Mamba Neural Operator(MNO)」という新たな枠組みを提案し、その理論的基盤と優れた性能を実証しています。
この論文は、データ漏洩や主要な地震列の欠落などの課題を解決し、地震学コミュニティの標準的な評価基準を用いてニューラル・ポイント・プロセス(NPP)と古典的な ETAS モデルを比較した新たなベンチマーク「EarthquakeNPP」を提案し、その結果、現状の NPP は ETAS よりも優れた地震予測性能を示さなかったことを報告しています。
この論文は、拡散モデルが学習データを記憶する過程が急激な変化ではなく、データ不足に伴い潜在次元が滑らかに減少し、重要な特徴から順に詳細が凍結して最終的に点ごとの複製に至る「幾何学的記憶」と呼ばれる段階的現象であることを理論的・実験的に明らかにしたものである。
この論文は、物理的な逆解を初期推定値として用い、3D 畳み込み U-Net でデータ駆動型の事前知識を統合するハイブリッド手法「3D-PIUNet」を提案し、従来の手法やエンドツーエンドの深層学習法よりも優れた空間精度で脳源再構成を実現することを示しています。
この論文は、タスク固有のバッチ正規化と分類ヘッドに「未知」クラスを導入して外れ値検出を行うことで、タスク識別子が利用できないクラス増分学習においてカタストロフィック・フォージングを抑制し、最先端の性能を達成する新しい継続的学習フレームワークを提案しています。
この論文は、LIME や SHAP などの既存手法が抱える局所的な変数依存関係の反映不足や多クラス分類への非適応性といった課題を克服し、変数間の局所的な依存関係や相互作用を捉えながら多クラス分類問題にも直接適用可能な新しいモデルアノニマな局所変数重要度測定手法「CLIQUE」を提案するものである。
この論文は、リー代数とトポロジー的特性を活用して任意のユニタリ演算を近似する単一層の量子ニューラルネットワークを提案し、SRBB(標準再帰的ブロック基底)に基づくスケーラブルな手法を再構成して CNOT ゲート数を指数関数的に削減し、シミュレーションおよび実ハードウェアでの有効性を検証したものである。
この論文は、従来のブラッドレー・テリーモデルなどが前提とする確率的推移性を不要とし、低次元の歪対称行列を用いてペア比較データをモデル化することで、多様なスキルや戦略が関わる実世界のシナリオにおいて最適な予測性能と推定理論的保証を実現する新しい統計モデルを提案しています。
本論文は、液体アルゴン時間投影箱(LArTPC)の未ラベルデータから物理的に意味のある粒子軌道表現を学習する自己教師あり学習手法「PoLAr-MAE」を提案し、極めて少量のラベル付きデータで最先端の教師あり手法に匹敵する性能を達成するとともに、100 万イベント規模のデータセット「PILArNet-M」を公開したことを報告しています。
本論文は、航空交通ネットワークの複雑な依存関係をグラフ機械学習(CatBoost と GAT)を用いてモデル化し、混雑や天候などに起因する航空機のホーディングによる遅延を予測する手法を提案し、不均衡データにおいて CatBoost が優れた性能と解釈可能性を示すとともに、リアルタイム予測ツールへの実装可能性を論じています。
本論文は、KL 正則化がもたらす最適化の利点と楽観的報酬推定を巧みに組み合わせることで、オンライン文脈付きバンドットおよび強化学習において対数 regret 境界を達成する新しいアルゴリズムとその理論的解析を提案しています。
この論文は、拡散モデルに基づく組み合わせ最適化ソルバーが追加学習なしで問題規模や問題種類(TSP から PCTSP や OP など)にわたる汎化性能を向上させるため、推論時の適応フレームワーク「DIFU-Ada」を提案し、その理論的基盤と有効性を示したものである。
CLIP の潜在空間が持つ本質的な幾何学的限界を理論的に証明し、画像パッチとテキストトークンの意味的トポロジーを保持する「密接コサイン類似度マップ(DCSM)」という新しいスコアリング手法を提案することで、CLIP の根本的な課題を克服し、多様なベンチマークで性能を向上させることを示した。
最新の深層音声除去モデルは、聴覚的に隠れた敵対的ノイズによって無意味な出力に誘導される脆弱性があり、安全な実用化には対抗策の確立が不可欠であることが示されました。
本論文は、価格形成者として市場価格に影響を与える風力発電事業者向けに、他の参加者の行動を推定する複雑な二階層最適化モデルに依存せず、文脈付き多腕バンディット問題として定式化されたオンライン学習アルゴリズムを提案し、ドイツの電力市場シミュレーションを通じてその有効性を検証したものである。
この論文は、非ユークリッド空間における従来の最大マージン分類の限界を指摘し、クラス共分散構造をチョレスキー分解を用いて最適化問題に組み込むことで、精度や F1 スコアなどの性能を向上させる共分散調整型サポートベクター分類アルゴリズムを提案しています。