NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks
本論文は、大規模言語モデルのフィードフォワードネットワークにおける高次元動的な情報フローを、スペクトルエントロピーや参加率などの 4 つの指標を用いた「NerVE」と呼ばれる統一された固有スペクトル解析フレームワークを通じて解明し、モデルの汎化性能や設計選択との関連性を示すことで、試行錯誤に頼らないアーキテクチャやオプティマイザの最適化を可能にすることを提案しています。