No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models
Lo studio dimostra che il metodo CDD per il rilevamento dell'inquinamento dei dati nei piccoli modelli linguistici è inefficace, poiché dipende dalla memorizzazione verbale e viene costantemente superato da approcci basati sulla probabilità come la perplessità e Min-k% Prob.