Deep Hierarchical Learning with Nested Subspace Networks for Large Language Models
Die Arbeit stellt Nested Subspace Networks (NSNs) vor, ein neuartiges Architekturen-Paradigma, das es ermöglicht, einzelne vortrainierte Large Language Models durch eine verschachtelte Untergruppenstruktur dynamisch an verschiedene Rechenbudgets anzupassen und dabei einen glatten Kompromiss zwischen Inferenzkosten und Leistung zu erreichen.