Interpretable and predictive models based on high-dimensional data in ecology and evolution
Questo studio confronta nove metodi statistici e di machine learning su dati simulati per dimostrare che, sebbene l'overfitting sia frequente nei dati ecologici ed evolutivi ad alta dimensionalità, modelli sparsi possono raggiungere un'accuratezza predittiva e una selezione delle variabili affidabili solo quando il numero di osservazioni è elevato, gli effetti causali sono forti e il numero di variabili è ridotto.