No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models
Dit onderzoek concludeert dat de methode CDD voor het detecteren van datacontaminatie in kleine taalmodellen (70M-410M parameters) over het algemeen niet effectiever is dan willekeur en dat probabilistische methoden zoals perplexiteit en Min-k% Prob in alle geteste scenario's superieure resultaten leveren.