No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models
O artigo demonstra que, para modelos de linguagem pequenos, o método de detecção de contaminação baseado na distribuição de saída (CDD) é ineficaz e supera em desempenho métodos baseados em probabilidade, como perplexidade e Min-k% Prob, pois sua eficácia depende criticamente da memorização verbatim que raramente ocorre nesses modelos.