Surrogate-Assisted Targeted Learning for Delayed Outcomes under Administrative Censoring

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um pesquisador tentando descobrir se um novo remédio funciona. Você tem um teste de sangue (o resultado final, ou "desfecho") que só dá certo 12 meses depois de tomar a pílula. Mas o estudo vai acabar em 6 meses!

O Problema: A "Janela Fechada"
Muitos participantes do estudo só começaram a tomar o remédio nos últimos meses. Para eles, o teste de sangue de 12 meses ainda não aconteceu quando o estudo termina. Eles são como pessoas que entraram no cinema 10 minutos antes do filme acabar: elas não viram o final.

Se você tentar calcular se o remédio funcionou apenas olhando para quem terminou o estudo, você terá um viés enorme. Os métodos antigos tentam "pesar" os dados para compensar quem faltou, mas quando muita gente falta (censura administrativa), esses pesos ficam gigantes e instáveis, como tentar equilibrar uma torre de blocos com um único bloco torto no topo. O resultado é um caos estatístico.

A Solução: O "Detetive do Substituto"
Este artigo propõe uma solução inteligente chamada Aprendizado Direcionado Assistido por Substitutos (SA-TMLE).

A ideia central é usar um substituto. Imagine que, além do teste de sangue de 12 meses, temos um exame de urina rápido feito em 3 meses. Esse exame não é perfeito, mas ele é um "substituto" que nos diz muito sobre o que vai acontecer no final. E o melhor: todos os participantes fizeram esse exame de 3 meses, mesmo os que saíram do estudo antes de completar 12 meses.

A Analogia da Ponte (O "Bridge")
Os autores criaram uma "ponte" estatística. Em vez de tentar adivinhar o resultado final de quem saiu cedo baseando-se apenas em quem ficou (o que é difícil e instável), eles fazem o seguinte:

Eles olham para quem ficou até o fim e veem como o exame de 3 meses se relacionou com o resultado de 12 meses.
Depois, eles aplicam essa relação a todos os participantes, incluindo os que saíram cedo, usando os dados do exame de 3 meses que eles têm.

É como se você quisesse saber a altura final de crianças que cresceram, mas só tinha medidas de 3 anos para algumas delas. Em vez de ignorar as crianças de 3 anos, você usa a curva de crescimento média (o "substituto") para estimar a altura delas aos 12 anos, baseando-se no que você sabe sobre o crescimento de quem foi medido até o fim.

Por que isso é genial?

Estabilidade: Métodos antigos (como IPCW) tentam "empurrar" os dados de quem faltou com pesos enormes, o que faz o cálculo tremer e falhar. O método novo usa a "ponte" do substituto, que é estável porque o dado do substituto existe para todos.
Robustez (Dupla Proteção): O método é "duplamente robusto". Isso significa que ele funciona bem mesmo se você errar em uma das duas partes da conta (ou na previsão do resultado final, ou na probabilidade de alguém ter faltado), desde que uma delas esteja correta. É como ter dois paraquedas: se um falhar, o outro te salva.
A "Ponte" Interna: O artigo descobre que, ao usar esse método de substituto, você não precisa estimar a distribuição complexa de quem faltou. O algoritmo "aprende" a corrigir o viés sozinho, sem precisar de fórmulas complicadas que exigem saber coisas que não sabemos.

O Cenário Real: O Estudo de Washington
O artigo testa isso em um cenário real: um estudo em "cunha" (stepped-wedge), onde grupos de hospitais começam o tratamento em momentos diferentes. Os hospitais que começaram por último tiveram muita gente "censurada" (sem o resultado final).

Método Antigo: Falhou ou deu intervalos de confiança gigantes (muito incertos).
Método Novo (SA-TMLE): Deu uma resposta clara, precisa e estável, mesmo com muita gente faltando no final.

Resumo para Levar para Casa
Imagine que você está tentando adivinhar o resultado de uma corrida, mas alguns corredores pararam na metade.

Método Antigo: Tenta adivinhar o tempo final olhando apenas para quem cruzou a linha, e tenta "esticar" os dados dos que pararam com uma força enorme (o que quebra a conta).
Método Novo: Olha para o ritmo que os corredores tinham na metade da prova (o substituto). Usa esse ritmo para prever quem cruzaria a linha, criando uma ponte segura entre o que sabemos e o que falta.

O artigo mostra que, quando temos dados intermediários bons (substitutos), podemos salvar estudos que pareciam perdidos por causa de prazos administrativos, obtendo respostas confiáveis sem precisar de suposições arriscadas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda um problema de estimação semiparamétrica comum em estudos longitudinais modernos, particularmente em Ensaios Clínicos em Rede de Passos (Stepped-Wedge Cluster Randomized Trials - SW-CRT).

Contexto: Muitas vezes, o desfecho primário de interesse ( $Y$ ) é observado apenas após um longo atraso. Enquanto isso, desfechos substitutos de curto prazo ( $S$ ) estão amplamente disponíveis.
Desafio: Quando a análise ocorre antes que todos os desfechos primários amadureçam (devido ao fechamento administrativo do estudo), os dados observados apresentam uma estrutura de censura administrativa. Unidades que cruzam para o tratamento tardiamente têm pouca ou nenhuma chance de ter seu desfecho primário observado antes do fim do estudo.
Limitações das Abordagens Atuais:
- Modelos Paramétricos (GLMM): Requerem especificação correta de tendências temporais e mecanismos de dados ausentes; são sensíveis a erros de especificação.
- Estimadores IPCW/AIPW (Ponderados por Probabilidade Inversa): Tendem a ser instáveis quando as probabilidades de observação ( $g_\Delta$ ) se aproximam de zero (comum em clusters que cruzam tardiamente), levando a uma inflação severa da variância e falhas nas aproximações assintóticas.
- Análises de Caso Completo: Podem ser altamente sensíveis à especificação do modelo de desfecho e introduzem viés se o mecanismo de ausência não for ignorável.

2. Metodologia Proposta: SA-TMLE

Os autores desenvolvem um Estimador de Perda Mínima Direcionado Assistido por Surrogado (SA-TMLE). A abordagem central é uma representação de "ponte" (bridge) que evita o uso direto de pesos inversos no parâmetro alvo.

Identificação via Ponte de Surrogado

Em vez de ponderar os desfechos observados pela probabilidade inversa de censura, o método identifica o Efeito Médio do Tratamento (ATE) $\Psi(P_0)$ integrando a regressão do desfecho observado sobre a distribuição condicional do surrogado:
$\Psi(P_0) = E_W \left[ E_{S|A=1} [E[Y|S, A=1, \Delta=1]] - E_{S|A=0} [E[Y|S, A=0, \Delta=1]] \right]$
Isso substitui o termo instável $g_\Delta^{-1}$ por uma condição de positividade de suporte na regressão do desfecho completo, que é mais fácil de satisfazer.

Estrutura Teórica e Assunções

MAR Mediado por Surrogado: Assumem que, condicional ao surrogado $S$ , o indicador de censura $\Delta$ é independente do desfecho $Y$ (não há aresta direta $Y \to \Delta$ no DAG).
Dependência em Cluster: Reconhecem que os dados são agrupados, exigindo que a inferência seja feita no nível do cluster (soma das influências, não média).

Construção do Estimador (Duas Etapas)

O método supera uma barreira teórica onde estimadores "one-step" de Debiased Machine Learning (DML) falham em funções aninhadas:

Estimativa Inicial (Stage 1): Uso do Super Learner (ensemble de aprendizado de máquina) para estimar as funções de incômodo (nuisance): regressão do desfecho ( $\bar{Q}_Y$ ), integração do surrogado ( $\bar{Q}_{int}$ ) e propensão de censura ( $g_\Delta$ ). A propensão de tratamento ( $g_A$ ) é conhecida pelo desenho do estudo.
Flutuação Aninhada (Stage 2): Um passo de direcionamento (targeting) adicional é aplicado.
- Problema Resolvido: Em funções aninhadas, um estimador DML padrão deixa um termo de resto de segunda ordem ( $R_{SY}$ ) que envolve o produto dos erros de estimação da regressão do desfecho e da densidade do surrogado ( $f_S$ ). O cross-fitting padrão não elimina esse termo.
- Solução: O SA-TMLE utiliza uma segunda etapa de flutuação que força a equação da pontuação eficiente a zero, absorvendo o termo $R_{SY}$ sem a necessidade de estimar diretamente a densidade condicional $f_S$ .

3. Contribuições Principais

O artigo faz três contribuições metodológicas fundamentais:

Identificação via Ponte Aninhada: Estabelece uma fórmula de G-computação longitudinal que identifica o ATE sem colocar pesos inversos de observação no funcional alvo, tornando-o robusto a cenários de censura administrativa severa.
Teoria Semiparamétrica Estrutural:
- Demonstra que, sob MAR mediado por surrogado, o mecanismo de censura não contribui com um componente separado para a função de influência eficiente (EIC).
- Estabelece que, para dados em cluster, a EIC do cluster é a soma (não a média) das EICs individuais para garantir variância assintótica correta.
Resolução do Resto de Produto Cruzado: Mostra que estimadores DML de um passo deixam um resto de segunda ordem dependente da lei do surrogado. O SA-TMLE elimina esse resto através de um direcionamento de duas etapas, alcançando consistência $\sqrt{J}$ sob condições de taxa de produto mais fracas, sem precisar estimar a densidade do surrogado.

4. Resultados (Simulações e Estudo de Caso)

Simulações de Monte Carlo

Os autores testaram o método em três cenários principais comparando com GLMM, IPCW e TMLE padrão:

Desempenho em Pequenas Amostras (Nº de Clusters): O SA-TMLE manteve viés próximo de zero e cobertura de intervalo de confiança (IC) estável (87-91%) mesmo com poucos clusters ( $J=10$ a $100$). O GLMM apresentou viés persistente devido à especificação incorreta da tendência temporal, e o IPCW sofreu de alta variância e viés positivo.
Robustez Dupla (Nuisance Misspecification):
- Se o modelo de desfecho estiver correto e a propensão de censura errada: O SA-TMLE manteve baixo viés e boa cobertura.
- Se o modelo de desfecho estiver errado e a propensão correta: Houve algum viés, indicando que a robustez dupla é assintótica e pode falhar em amostras finitas se o erro estrutural for grande.
- Se ambos estiverem errados: Viés esperado e subcobertura.
Censura Severa: À medida que a taxa de censura administrativa aumentou (de 8% para 43%), o IPCW e o GLMM colapsaram (viés alto, cobertura próxima de zero). O SA-TMLE manteve viés baixo, embora a cobertura dos ICs tenha diminuído ligeiramente devido à variância não capturada pelo estimador de variância "sanduíche" em cenários de resto de segunda ordem.

Estudo de Caso: Washington State EPT

Uma aplicação calibrada no estudo de Terapia de Parceiro Entregue ao Paciente (EPT) para clamídia:

O SA-TMLE produziu estimativas pontuais próximas à verdade conhecida (ATE oráculo).
O IPCW teve um intervalo de confiança duas vezes mais largo que o SA-TMLE devido à inflação de variância causada pelos pesos de censura próximos de zero nas ondas tardias.
O GLMM teve o IC mais estreito, mas dependia de especificação correta do modelo.

5. Significado e Conclusão

O artigo fornece uma solução não paramétrica e assintoticamente robusta para um problema comum em ensaios clínicos de implementação: a perda de poder estatístico e a instabilidade de estimadores devido a desfechos primários atrasados e censura administrativa.

Inovação Teórica: A demonstração de que a estrutura de "ponte" aninhada requer um direcionamento de duas etapas para lidar com termos de resto de segunda ordem é uma contribuição teórica significativa para a literatura de aprendizado de máquina direcionado (Targeted Learning).
Aplicabilidade Prática: O método permite que pesquisadores utilizem dados de surrogados amplamente disponíveis para recuperar informações sobre desfechos primários censurados, evitando a perda de clusters inteiros (como em análises de caso completo) e a instabilidade de pesos inversos (como em IPCW).
Recomendação: O artigo sugere o uso do SA-TMLE em SW-CRTs com desfechos atrasados, especialmente quando há um surrogado válido disponível, e destaca a necessidade de considerar a variância de segunda ordem em amostras finitas (sugerindo intervalos baseados em $t$ ou correções de variância).

O código e os pacotes R (swcrtSurrTMLE) para replicação estão disponíveis publicamente, facilitando a adoção da metodologia.

Surrogate-Assisted Targeted Learning for Delayed Outcomes under Administrative Censoring

1. O Problema

2. Metodologia Proposta: SA-TMLE

Identificação via Ponte de Surrogado

Estrutura Teórica e Assunções

Construção do Estimador (Duas Etapas)

3. Contribuições Principais

4. Resultados (Simulações e Estudo de Caso)

Simulações de Monte Carlo

Estudo de Caso: Washington State EPT

5. Significado e Conclusão

Mais como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM