Autores originais: Salil Parth Tripathi, Bertrand Chapron, Fabrice Collard, Nicolas Courty, Ronan Fablet

Publicado 2026-05-20✓ Author reviewed ⓘ

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Salil Parth Tripathi, Bertrand Chapron, Fabrice Collard, Nicolas Courty, Ronan Fablet

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você está tentando emparelhar dois grupos diferentes de pessoas para uma dança. Um grupo é a "Fonte" (digamos, dançarinos de Nova York) e o outro é o "Alvo" (dançarinos de Londres).

O Jeito Antigo (Transporte Ótimo Padrão):
Tradicionalmente, a regra era estrita: Cada dançarino individual deve encontrar um parceiro. Mesmo que um dançarino de Nova York esteja usando um nariz de palhaço e um dançarino de Londres esteja usando um tutu, o algoritmo os força a se emparelhar apenas para fazer os números baterem. Isso frequentemente leva a emparelhamentos tolos e forçados que não fazem sentido.

O Jeito "Parcial" (Soluções Anteriores):
Mais tarde, pesquisadores disseram: "Ok, podemos deixar algumas pessoas sem par." Mas fizeram isso com um orçamento global. Imagine um gerente que diz: "Podemos deixar 10% dos dançarinos na lateral da pista." O gerente não se importa quem fica de fora; ele só precisa que o número total seja 10%. Se os 10% deixados de fora forem acidentalmente os melhores dançarinos, o emparelhamento é arruinado. O sistema carece de nuances.

O Jeito Novo (IC-POT - "Pegue ou Deixe"):
Este artigo introduz o Transporte Ótimo Parcial Controlado por Intenção (IC-POT). Em vez de um orçamento global, ele dá a cada dançarino individual uma etiqueta de preço de rejeição pessoal.

Pense nisso como um porteiro de uma boate, mas o porteiro é diferente para cada pessoa:

A Regra "Pegue": Se um dançarino é confiável, bem vestido e combina com o clima, seu "preço de rejeição" é alto. O algoritmo pensa: "Custa demais expulsar esta pessoa, então devemos tentar encontrar um parceiro para ela."
A Regra "Deixe": Se um dançarino está claramente fora de lugar (talvez seja um palhaço em um baile formal, ou seus dados sejam ruidosos), seu "preço de rejeição" é baixo. O algoritmo pensa: "É barato deixar esta pessoa na lateral da pista, então faremos isso."

Como Funciona na Vida Real (Os Exemplos do Artigo)

Os autores mostram que isso funciona em três cenários específicos:

1. O "Jogo de Adivinhação" (Aprendizado Positivo-Não Rotulado)
Imagine que você está tentando encontrar todos os gatos em uma foto, mas tem apenas algumas fotos rotuladas de gatos e uma pilha enorme de fotos não rotuladas (alguns gatos, alguns cães).

O Problema: Alguns gatos estão escondidos nas sombras (difíceis de ver), enquanto outros são brilhantes e claros. Um método "parcial" padrão pode descartar os gatos das sombras porque está tentando ser eficiente.
A Correção IC-POT: O sistema sabe que áreas "sombrias" são apenas difíceis de ver, não necessariamente "não gatos". Ele coloca uma etiqueta de preço alta na rejeição de gatos sombrios. Ele os mantém no emparelhamento. Ele coloca uma etiqueta de preço baixa nos cães óbvios. O resultado? Ele encontra mais gatos sem se confundir com cães.

2. A "Barreira de Idioma" (Adaptação de Domínio Aberto-Parcial)
Imagine ensinar um computador a reconhecer objetos em fotos de um novo país. Alguns objetos existem em ambos os países (carros, árvores), mas alguns existem apenas no novo país (animais locais únicos).

O Problema: O computador pode tentar forçar um emparelhamento entre um animal local e um carro porque está desesperado para emparelhar todos.
A Correção IC-POT: O sistema analisa a "confiança" do emparelhamento. Se um animal local tem muita confiança em sua própria identidade, mas não tem correspondência no país antigo, o sistema dá a ele um preço de rejeição baixo. Ele diz: "Deixe este animal sem par; ele não pertence à lista antiga." Mas se um carro é claramente um carro, o preço para rejeitá-lo é alto, então ele é emparelhado.

3. A "Vista do Oceano" (Dados Geofísicos)
Este é o exemplo mais visual. Os autores compararam duas câmeras de satélite diferentes olhando para ondas do oceano.

O Problema: Uma câmera (SWIM) vê as ondas claramente, mas recebe "estática" (ruído) em certas direções. A outra câmera (SAR) vê as ondas bem, mas fica "embaçada" em outras direções devido à física.
A Correção IC-POT: O sistema usa conhecimento físico como a etiqueta de preço.
- Se uma onda está embaçada na Câmera A, mas clara na Câmera B, o sistema diz: "Esta é uma onda real, mas a Câmera A está apenas tendo um dia ruim. Não a rejeite." (Alto preço para rejeitar).
- Se uma onda está clara na Câmera A, mas parece "estática" na Câmera B, o sistema diz: "A Câmera B está apenas vendo ruído. Rejeite este emparelhamento." (Baixo preço para rejeitar).
- Resultado: Eles obtêm um mapa perfeito das ondas ignorando os "glitches" específicos de cada câmera, em vez de tentar forçar um emparelhamento entre uma onda real e um glitch.

A Grande Conclusão

O artigo argumenta que nem todos os desajustes são criados iguais.

Método Antigo: "Vamos rejeitar 10% dos dados aleatoriamente ou com base em uma regra simples."
IC-POT: "Vamos olhar para cada pedaço de dados individualmente. Se for confiável, mantemos. Se for não confiável ou ruidoso, deixamos de fora. Decidimos isso com base em pistas específicas (como sombras, pontuações de confiança ou física do sensor) disponíveis para aquele pedaço específico de dados."

Isso transforma a decisão de "o que jogar fora" de um instrumento bruto em uma ferramenta precisa e inteligente.

Resumo Técnico: Transporte Ótimo Parcial Controlado por Intenção (IC-POT)

Declaração do Problema

O Transporte Ótimo (OT) clássico impõe uma restrição rígida onde toda a massa de origem deve ser transportada e toda a massa de destino deve ser explicada. Essa suposição de "participação total" frequentemente leva a correspondências artificiais ou transferência negativa ao comparar distribuições onde apenas um subconjunto da massa é relevante ou confiável.

Embora o Transporte Ótimo Parcial (POT) relaxe isso permitindo que a massa permaneça sem correspondência, formulações existentes geralmente dependem de mecanismos de controle global. Estes incluem um orçamento escalar de massa transportada, um desconto escalar uniforme ou penalidades marginais globais. Esses mecanismos controlam quanto da massa é rejeitada, mas não quais pontos específicos devem ser protegidos ou descartados. Consequentemente, eles falham em abordar aplicações onde a decisão de deixar a massa sem correspondência depende da confiabilidade específica de cada lado, da geometria do suporte ou de informações externas (por exemplo, viés de amostragem em aprendizado Positivo-Não Rotulado, confiança em Adaptação de Domínio ou artefatos específicos de sensores em geofísica).

Metodologia: IC-POT

Os autores introduzem o Transporte Ótimo Parcial Controlado por Intenção (IC-POT), uma generalização direcionada do POT que substitui o paradigma de rejeição global por custos de rejeição pontuais em ambas as medidas de origem e destino.

Formulação

Dados suportes discretos $X = \{x_i\}$ e $Y = \{y_j\}$ com massas $\mu$ e $\nu$ , e uma matriz de custo de transporte $C$ , o IC-POT introduz variáveis de folga $u$ (massa de origem sem correspondência) e $v$ (massa de destino sem correspondência). O problema de otimização é:

$\min_{P, u, v} \langle C, P \rangle + \langle c_s, u \rangle + \langle c_t, v \rangle$
sujeito a:
$P\mathbf{1} + u = \mu, \quad P^\top\mathbf{1} + v = \nu, \quad P, u, v \geq 0$

Aqui, $c_s \in \mathbb{R}^n_+$ e $c_t \in \mathbb{R}^m_+$ são custos de não correspondência pontuais. Diferentemente de descontos globais, esses custos precificam a alternativa local de deixar massa específica sem correspondência diretamente nos suportes originais.

Propriedades Estruturais

O artigo estabelece várias propriedades teóricas-chave:

Forma Lagrangiana Reduzida: O problema é equivalente a minimizar $\sum_{i,j} (C_{ij} - c_s(i) - c_t(j))P_{ij}$ sobre sub-acoplamentos, efetivamente substituindo o desconto escalar do POT clássico por um desconto separável e pontual.
Interpretação Dual: A formulação dual revela que $c_s(i)$ e $c_t(j)$ atuam como limites de aceitação locais (tetos) para as variáveis duais. Um ponto é rejeitado se sua variável dual atingir esse teto.
Admissibilidade e Esparsidade: Uma aresta $(i, j)$ só pode estar ativa em um plano de transporte ótimo se $C_{ij} \leq c_s(i) + c_t(j)$ . Isso fornece uma regra exata, pré-computada, para podar o grafo de transporte, garantindo esparsidade baseada nos custos de rejeição específicos.
Equivalência de Suporte Aumentado: O IC-POT pode ser reescrito como um problema padrão de OT de Kantorovich balanceado em um suporte aumentado (adicionando um ponto fictício a cada marginal), provando a boa definição dentro do framework de OT discreto.

Contribuições Principais

O artigo reivindica três contribuições primárias:

Modelagem Explícita do Comportamento de Não Correspondência: Torna a política de não correspondência um objeto explícito na formulação por meio de variáveis de folga nos suportes originais, em vez de um resultado implícito de restrições globais.
Caracterização Teórica: Caracteriza o problema como uma generalização de desconto pontual separável do transporte parcial Lagrangiano, estabelecendo tetos duais, regras de admissibilidade esparsas e uma separação estrita do OT parcial de custo constante (demonstrado via contraexemplos onde custos pontuais quebram simetrias preservadas por regras uniformes).
Validação Empírica: Demonstra que incorporar regras de rejeição pontuais impulsionadas por informação lateral melhora o desempenho em tarefas onde a rejeição é estruturada, especificamente em aprendizado Positivo-Não Rotulado (PU), Adaptação de Domínio Parcial Aberta (OPDA) e comparação de sinais geofísicos.

Resultados Experimentais

1. Aprendizado Positivo-Não Rotulado (PU)

No aprendizado PU, o objetivo é corresponder positivos rotulados contra um pool não rotulado contendo tanto positivos latentes quanto negativos.

Configuração: Os autores simulam cenários "Selecionados ao Acaso" (SAR) onde amostras positivas são subobservadas em certas regiões (margens) devido a viés de seleção dependente de covariáveis.
Resultado: Uma linha de base de OT parcial de custo constante (rejeição uniforme) falha em proteger essas regiões de margem subobservadas, tratando-as como negativas. O IC-POT, usando um perfil de custo do lado da origem que codifica o viés de seleção (tornando a rejeição cara em margens de baixa observação), supera significativamente a linha de base.
Métricas: Em regimes heterogêneos, o IC-POT alcançou uma pontuação F1 de 0,86 comparado a 0,52 para a linha de base de custo constante.

2. Adaptação de Domínio Parcial Aberta (OPDA)

Na OPDA, o domínio de destino contém classes desconhecidas que devem ser rejeitadas.

Configuração: Usando uma espinha dorsal de destilação CLIP fixa, os autores modificaram apenas a camada final de rejeição. Compararam uma linha de base parcial-W uniforme contra duas variantes de IC-POT: uma usando entropia posterior (protegendo amostras de baixa entropia) e outra usando suporte de protótipos (protegendo amostras com concordância de vizinhança local coerente).
Resultado: Ambas as variantes de IC-POT melhoraram a linha de base uniforme em múltiplos conjuntos de dados (Office-31, Office-Home, VisDA, DomainNet). A variante de suporte de protótipos alcançou os maiores ganhos em conjuntos de dados localmente coerentes (por exemplo, 95,12 H-score no Office-31 vs. 94,08 para parcial-W).
Descoberta: Os resultados sugerem que, uma vez fixa a representação, os ganhos de desempenho dependem de modelar a rejeição como uma política dependente de estrutura, em vez de uma regra escalar uniforme.

3. Estudo de Caso Geofísico: Espectros de Ondas Oceânicas SWIM/SAR

Este experimento aborda a comparação de espectros de ondas oceânicas recuperados de dois sensores diferentes (SWIM e SAR) com artefatos distintos.

Contexto: Espectros SAR sofrem de "corte de azimute" (deslocando energia), enquanto espectros SWIM sofrem de "speckle" (setores direcionais não confiáveis). O objetivo é comparar apenas sistemas de ondas fisicamente consistentes.
Método: O IC-POT usa custos específicos de cada lado derivados de priores físicos: protegendo a massa SAR deslocada pelo corte (se apoiada pelo SWIM) enquanto expõe massa dominada por speckle ou não apoiada à rejeição.
Resultado: O IC-POT recuperou energia de onda comparável (0,993) comparável a uma linha de base global de alto preço, mas reduziu o transporte espúrio por um fator de 7 (0,031 vs. 0,236).
Significado: Diferentemente de uma regra escalar que força uma compensação entre recuperar sistemas comuns e rejeitar artefatos, o IC-POT permite que a política de rejeição seja definida pela própria natureza física dos dados.

Significado e Limitações

O artigo argumenta que o IC-POT é significativo porque desloca o paradigma do transporte parcial de "quanto rejeitar" para "o que rejeitar". Ao tornar a política de não correspondência uma variável explícita e pontual, permite que conhecimento específico de domínio (viés de amostragem, confiança, priores físicos) informe diretamente o plano de transporte.

Limitações reconhecidas pelos autores:

Especificação: As funções de não correspondência ( $c_s, c_t$ ) devem ser especificadas pelo usuário com base em informações laterais disponíveis ou diagnósticos. O artigo não propõe um método para aprender essas funções automaticamente a partir dos dados, embora sugira isso como uma direção futura (por exemplo, via otimização bilevel).
Escalabilidade: Embora o solver esparsificado seja exato, aplicações em grande escala podem exigir aproximações adicionais.
Regularização: Os autores observam que a regularização entrópica padrão (Sinkhorn) não se aplica diretamente à formulação de suporte aumentado sem alterar o objetivo (introduzindo um viés na massa total transportada) ou criar desajustes de escala entre pontos fictícios e reais. Assim, o IC-POT não é um substituto direto para solvers padrão de OT entrópico.

Em conclusão, o IC-POT fornece um framework flexível para rejeição estruturada em transporte ótimo, demonstrando que codificar informações laterais em custos de rejeição pontuais produz desempenho superior em tarefas onde a decisão de "não correspondência" é inerentemente não uniforme.

Take It or Leave It: Intent-Controlled Partial Optimal Transport