Kernel Tests of Equivalence

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha famoso e tem uma receita secreta perfeita (a Distribuição Nominal). Agora, você contrata um novo ajudante e quer saber se ele consegue cozinhar exatamente como você.

Aqui está o problema: como você testa isso?

O Problema do "Teste de Culpa" (O Jeito Antigo)

O jeito tradicional de fazer isso é como um teste de culpa: "A comida do ajudante é diferente da minha?"

Se a comida estiver muito diferente, você diz: "Culpa! Não é igual!" e demite o ajudante.
Mas e se a comida estiver quase igual, mas não 100% perfeita? O teste tradicional diz: "Não temos provas suficientes para dizer que é diferente".

O problema é que dizer "não temos provas" não significa que é igual! Pode ser apenas que você não provou o suficiente (falta de amostras) ou que o teste é muito cego para ver diferenças pequenas. Em estatística, isso é um erro perigoso: você pode achar que o ajudante é perfeito quando ele só é "bom o suficiente" ou até ruim, mas você não conseguiu provar o contrário.

Além disso, se você provar a comida 1 milhão de vezes, vai encontrar alguma diferença minúscula (um grão de sal a mais, uma temperatura diferente). O teste antigo diria sempre: "Eles são diferentes!". Mas na vida real, "diferente" não significa "ruim". Às vezes, queremos saber se são equivalentes para todos os efeitos práticos.

A Solução: O "Teste de Equivalência" (O Jeito Novo)

Os autores deste artigo propõem uma nova maneira de pensar. Em vez de perguntar "É diferente?", eles perguntam: "É suficientemente parecido para ser considerado o mesmo?"

Eles introduzem uma margem de erro aceitável, chamada de Margem de Equivalência ( $\theta$ ).

Pense nisso como uma faixa de tolerância. Se a comida do ajudante estiver dentro dessa faixa (nem muito salgada, nem muito sem sal), nós aceitamos que ele é equivalente a você.
O objetivo do novo teste é provar que a diferença está dentro dessa faixa aceitável, com um alto grau de confiança.

As Ferramentas Mágicas: "Medidores de Distância"

Para medir quão parecidas são as receitas (ou as distribuições de dados), os autores usam duas ferramentas matemáticas sofisticadas baseadas em "Kernels" (que são como lentes de aumento matemáticas):

KSD (Kernel Stein Discrepancy): É como um detetive que olha para a receita. Você não precisa ver a comida pronta, apenas precisa saber a receita (a função de pontuação). É ótimo quando você tem a receita, mas não consegue cozinhar a comida do chefe para comparar diretamente.
MMD (Maximum Mean Discrepancy): É como um gourmet que prova a comida. Você precisa de duas panelas de comida (uma sua, uma do ajudante) para comparar o sabor. É usado quando você só tem as amostras finais, sem saber a receita exata.

Os Dois Métodos de Teste

Os autores criaram duas formas de fazer esse teste de equivalência:

O Método "Normal" (Aproximação Rápida):
- Funciona como uma estimativa rápida baseada em médias. É rápido e tem poder para detectar diferenças, mas tem um defeito: se a diferença for muito pequena (perto da linha da margem de tolerância), ele pode ficar confuso e dizer que é igual quando não é, ou vice-versa. É como tentar medir a espessura de um fio de cabelo com uma régua de madeira: funciona para coisas grandes, mas falha no detalhe fino.
O Método "Bootstrapping" (O Simulador de Cenários):
- Este é o método mais robusto. Imagine que você pega a comida do ajudante, divide em pedaços, mistura, reorganiza e cria milhares de "versões alternativas" dessa comida (simulações).
- Ao fazer isso milhares de vezes, ele cria um mapa de todas as possibilidades. Isso permite que ele diga com muita certeza: "Sim, mesmo com todas as variações possíveis, a comida ainda está dentro da faixa de tolerância".
- É mais lento (computacionalmente), mas muito mais confiável, especialmente quando a diferença é sutil.

Como Escolher a "Margem de Tolerância"?

Um dos maiores desafios é: Qual é o tamanho da faixa aceitável?

Se a faixa for muito grande, você aceita qualquer coisa (até comida estragada).
Se for muito pequena, você nunca aceita ninguém.

Os autores propõem uma abordagem inteligente: Escolha a margem baseada no que você quer detectar.
Eles dizem: "Vamos definir a margem como o menor tamanho de erro que queremos ter certeza de que nosso teste consegue pegar." É como dizer: "Se o ajudante errar mais do que isso, queremos que o teste nos avise. Se errar menos, aceitamos." Isso torna o teste adaptável e justo.

Resumo da Ópera

Este artigo é como um manual para chefs de estatística que querem parar de apenas procurar defeitos e começar a validar a qualidade.

O Problema: Testes antigos só dizem "está errado" ou "não sabemos". Eles não conseguem dizer "está bom o suficiente".
A Solução: Testes de Equivalência que provam que as coisas são "praticamente iguais".
A Inovação: Usam duas ferramentas poderosas (KSD e MMD) e dois métodos de cálculo (um rápido e um super confiável via simulação) para garantir que, mesmo com dados complexos, você possa afirmar com segurança: "Sim, esses dois mundos são equivalentes".

É uma mudança de mentalidade: de "provar que o outro é culpado" para "provar que o outro é confiável".

Each language version is independently generated for its own context, not a direct translation.

Título: Kernel Tests of Equivalence

Autores: Xing Liu (QuantCo) e Axel Gandy (Imperial College London)
Data: Março de 2026 (Pré-impressão)

1. O Problema

O teste de adequação de modelo (Goodness-of-Fit - GOF) tradicional visa rejeitar a hipótese nula de que os dados seguem uma distribuição nominal específica ( $H_0^*: Q = P$ ). No entanto, a falha em rejeitar essa hipótese não prova que as distribuições são equivalentes; pode ser apenas resultado de baixa potência estatística (erro do Tipo II). Além disso, em grandes amostras, quase qualquer modelo será rejeitado devido a desvios mínimos ("todos os modelos são errados").

Em muitas aplicações práticas (como bioequivalência de fármacos, validação de modelos generativos e estudos de estabilidade), o objetivo não é detectar diferenças, mas sim demonstrar que duas distribuições são suficientemente próximas dentro de uma margem de erro predefinida. Isso exige Testes de Equivalência, onde a hipótese nula ( $H_0$ ) assume que as distribuições são diferentes por uma margem significativa ( $\theta$ ), e a rejeição de $H_0$ prova a equivalência.

Limitações existentes:

A maioria dos testes de equivalência existentes é restrita a distribuições paramétricas ou foca apenas em momentos específicos (média, variância), ignorando a estrutura completa da distribuição.
Métodos não paramétricos recentes (como os baseados em MMD) frequentemente dependem de aproximações de normalidade assintótica. O artigo demonstra que essas aproximações falham quando a margem de equivalência ( $\theta$ ) é pequena, resultando em taxas de erro do Tipo I não controladas (falsas equivalências).

2. Metodologia Proposta

Os autores propõem duas famílias de testes de equivalência não paramétricos baseados em Discrepâncias Estatísticas de Kernel:

KSD (Kernel Stein Discrepancy): Adequado para o cenário de uma amostra (onde se tem dados de $Q$ e acesso à função de pontuação de $P$ , mas não necessariamente amostras de $P$ ).
MMD (Maximum Mean Discrepancy): Adequado para o cenário de duas amostras (onde se têm amostras de $Q$ e de $P$ ).

Para cada cenário, são propostos dois métodos de cálculo de valores críticos:

A. Abordagem Baseada em Normalidade Asintótica (E-KSD-Normal / E-MMD-Normal)

Princípio: Utiliza o Teorema do Limite Central (CLT) para aproximar a distribuição do estimador da discrepância quadrática.
Hipótese: Rejeita $H_0$ (diferença $\ge \theta$ ) se a estatística padronizada for menor que um quantil crítico da distribuição normal.
Limitação: O artigo demonstra teórica e empiricamente que, quando a verdadeira discrepância está próxima de zero (ou da margem $\theta$ ), a distribuição assintótica do estimador deixa de ser normal (torna-se uma soma ponderada de qui-quadrados). Isso leva a uma aproximação pobre e a um controle inadequado do erro do Tipo I para margens pequenas.

**B. Abordagem Baseada em Bootstrapping (E-KSD-Boot / E-MMD-Boot)**

Princípio: Utiliza uma técnica de bootstrapping ponderado (weighted bootstrapping) para estimar a distribuição da estatística de teste sob a hipótese nula composta.
Inovação Teórica: Os autores provam que é possível usar a desigualdade triangular das discrepâncias de kernel (KSD ou MMD) para construir um limite superior conservador.
- Para KSD: $KSD(Q, P) \le MMD(Q, Q_n; u_p) + KSD(Q_n, P)$ .
- Isso permite usar amostras de bootstrap (que simulam a distância entre a amostra empírica e a distribuição real) para estimar o valor crítico, garantindo o controle do erro do Tipo I mesmo para margens $\theta$ pequenas e amostras finitas.
Vantagem: Mantém a calibração correta (controle de erro do Tipo I) em cenários onde a aproximação normal falha, embora com um custo ligeiro na potência do teste.

C. Seleção de Margem de Equivalência ( $\theta$ )

O artigo propõe uma abordagem orientada por dados para selecionar $\theta$ . Em vez de escolher $\theta$ arbitrariamente, ele é definido como o menor efeito de interesse (SESOI - Smallest Effect Size of Interest) necessário para garantir uma potência pré-especificada (ex: 80%) contra alternativas específicas. Isso conecta o teste estatístico diretamente aos requisitos práticos do problema.

3. Contribuições Principais

Novos Testes de Equivalência Não Paramétricos: Desenvolvimento de testes completos para cenários de uma e duas amostras que avaliam a equivalência de distribuições inteiras, não apenas momentos.
Solução para o Problema de Calibração: Identificação e resolução do problema de erro do Tipo I não controlado em testes de equivalência baseados em normalidade quando $\theta$ é pequeno. A solução proposta é o uso de bootstrapping baseado em desigualdades triangulares de kernel.
Generalização de Trabalhos Anteriores: Generalização do trabalho de Chen et al. (2023), permitindo tamanhos de amostra desiguais ( $n \neq m$ ) no cenário de duas amostras e introduzindo a abordagem de bootstrapping que supera as limitações da aproximação normal.
Método de Seleção de Margem: Introdução de um método sistemático para escolher a margem de equivalência $\theta$ baseado em garantias de potência, tornando o teste mais aplicável na prática.

4. Resultados Experimentais

Os autores realizaram extensos experimentos numéricos para validar os testes:

Modelos de Deslocamento de Média Gaussiana:
- Mostraram que os testes E-KSD-Normal e E-MMD-Normal falham em controlar o erro do Tipo I quando a margem $\theta$ é pequena, mesmo com tamanhos de amostra moderados (ex: $n=200$ ). A taxa de rejeição falsa excede significativamente o nível nominal (0.05).
- Os testes E-KSD-Boot e E-MMD-Boot mantiveram o erro do Tipo I controlado em todas as configurações, incluindo margens pequenas e amostras finitas.
- Em termos de potência, os testes baseados em normalidade tendem a ser mais poderosos quando a equivalência é verdadeira, mas a falta de controle de erro do Tipo I torna-os não confiáveis.
Máquinas de Boltzmann Restritas (GB-RBM):
- Testes de adequação de modelo para distribuições complexas onde a função de normalização é intratável, mas a função de pontuação é conhecida. O teste E-KSD-Boot demonstrou ser capaz de distinguir entre modelos equivalentes e não equivalentes com calibração correta.
Dados MNIST (Duas Amostras):
- Avaliação em alta dimensão (imagens de dígitos). O teste E-MMD-Boot mostrou-se bem calibrado e capaz de detectar pequenas misturas de distribuições (outliers), enquanto o teste normal falhou novamente no controle de erro do Tipo I devido à complexidade da aproximação assintótica em alta dimensão.

5. Significância e Conclusão

Este trabalho é significativo porque preenche uma lacuna crítica na estatística de kernels: a capacidade de provar a equivalência (e não apenas a falta de diferença) com garantias rigorosas de erro.

Impacto Prático: Permite que pesquisadores em áreas como aprendizado de máquina (validação de GANs, simulações), farmacologia e ciências sociais utilizem testes não paramétricos robustos para afirmar que dois modelos ou processos são "suficientemente iguais" para fins práticos.
Robustez: A proposta de usar bootstrapping em vez de aproximações normais resolve um problema fundamental de calibração que afetava métodos anteriores, especialmente em cenários de margens pequenas ou amostras finitas.
Direções Futuras: Os autores sugerem a extensão para outras discrepâncias estatísticas (como distância de energia) e o desenvolvimento de estimadores parciais de V-estatística para melhorar a potência dos testes baseados em normalidade.

Em resumo, o artigo fornece uma ferramenta estatística rigorosa e prática para a validação de equivalência de distribuições, superando as limitações dos testes de adequação tradicionais e dos métodos de equivalência paramétricos existentes.

Kernel Tests of Equivalence

O Problema do "Teste de Culpa" (O Jeito Antigo)

A Solução: O "Teste de Equivalência" (O Jeito Novo)

As Ferramentas Mágicas: "Medidores de Distância"

Os Dois Métodos de Teste

Como Escolher a "Margem de Tolerância"?

Resumo da Ópera

Título: Kernel Tests of Equivalence

1. O Problema

2. Metodologia Proposta

A. Abordagem Baseada em Normalidade Asintótica (E-KSD-Normal / E-MMD-Normal)

B. Abordagem Baseada em Bootstrapping (E-KSD-Boot / E-MMD-Boot)

C. Seleção de Margem de Equivalência (θ\thetaθ)

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM

**B. Abordagem Baseada em Bootstrapping (E-KSD-Boot / E-MMD-Boot)**

C. Seleção de Margem de Equivalência ( $\theta$ )