Client-Cooperative Split Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um segredo valioso (seus dados, como fotos de família ou registros médicos) e quer criar um "cérebro inteligente" (uma Inteligência Artificial) que aprenda com esses dados. O problema é: você não tem um computador potente o suficiente para fazer isso sozinho, e não quer confiar seus segredos para ninguém, nem mesmo para uma grande empresa de tecnologia.

Aqui entra o CLICOOPER, o sistema descrito neste artigo. Pense nele como uma cooperativa de aprendizado onde várias pessoas se unem para construir esse cérebro, mas sem nunca precisar mostrar o segredo original.

Aqui está como funciona, usando analogias simples:

1. O Cenário: A Cozinha Secreta

Imagine que você é o Dono dos Dados (o Cliente). Você tem os ingredientes (seus dados), mas sua cozinha é pequena e você não sabe cozinhar pratos complexos.
Você contrata vários Chefs (os Treinadores). Eles têm fornos potentes e habilidades, mas não têm os ingredientes.
O objetivo é cozinhar um prato incrível juntos, mas você não pode entregar os ingredientes crus para eles, senão eles podem roubá-los ou estragá-los.

2. O Problema Antigo

Nas versões antigas de "Aprendizado Dividido", o Dono mandava os ingredientes processados para um único Chef gigante. Se esse Chef fosse mal-intencionado ou fosse hackeado, o segredo vazava. Além disso, ninguém sabia exatamente quem fez o quê no prato, gerando brigas sobre quem merece o pagamento.

3. A Solução CLICOOPER: O Jogo de Três Cartas

O CLICOOPER muda as regras do jogo com três truques mágicos:

A. O Mapa do Tesouro Falso (Expansão de Rótulos Secretos)

Em vez de dizer aos Chefs: "Isso é uma foto de um Gato", você usa um código secreto.

Você transforma "Gato" em "Animal 1-A", "Animal 1-B" e "Animal 1-C".
Você entrega aos Chefs apenas esses códigos estranhos.
O Truque: Os Chefs aprendem a cozinhar usando esses códigos. Se eles tentarem vender o prato pronto para alguém que não tem a chave do código, o prato fica sem graça (inútil). Só você, que tem o mapa de volta (o código secreto), pode transformar "Animal 1-A" de volta em "Gato". Isso protege o significado real dos seus dados.

B. O Filtro de Neblina (Privacidade Diferencial)

Mesmo com os códigos, os Chefs poderiam tentar adivinhar o que você está cozinhando olhando para a fumaça que sai da sua cozinha (os dados intermediários).

O CLICOOPER adiciona uma neblina artificial (ruído matemático) na fumaça antes de ela sair da sua casa.
Essa neblina é calculada de forma que os Chefs ainda consigam cozinhar o prato (o modelo aprende), mas se alguém tentar olhar a fumaça para reconstruir a foto original, só verá um borrão sem sentido. É como tentar ver a foto de um rosto através de um vidro embaçado e com neve caindo.

C. A Corrente de Ouro (Marca d'Água em Cadeia)

Agora, como saber se os Chefs realmente trabalharam e não apenas pegaram um prato pronto de outro lugar?

Imagine que cada Chef, ao terminar sua parte do prato, coloca uma pequena marca d'água invisível na comida.
Mas aqui está o segredo: a marca do Chef 2 depende do que o Chef 1 fez. A marca do Chef 3 depende do Chef 2, e assim por diante.
É como uma corrente de ouro: se você tentar pular uma etapa ou usar um prato pronto, a corrente quebra e a marca não fecha.
No final, um Juiz (o Verificador) olha para a corrente. Se ela estiver intacta e conectada, ele sabe exatamente quem fez cada parte e garante que todos sejam pagos. Se alguém tentar trapacear, a corrente se quebra e ele não recebe nada.

4. Os Resultados (O Que a Ciência Descobriu)

Os pesquisadores testaram isso em vários cenários (reconhecimento de dígitos, fotos de carros, notícias):

Segurança: Os "espiões" (Chefs curiosos) não conseguiram descobrir os dados originais. A chance de eles adivinharem os grupos de dados caiu para 0% em muitos casos.
Reconstrução: Tentativas de reconstruir as fotos originais a partir da "neblina" falharam miseravelmente (a imagem ficou parecida com estática de TV).
Roubo de Modelo: Se um ladrão tentasse copiar o cérebro inteligente apenas fazendo perguntas a ele, ele só conseguiria acertar cerca de 1% das respostas (o mesmo que chutar aleatoriamente).
Qualidade: O prato final ficou delicioso! A precisão do modelo manteve-se alta, às vezes até melhorando um pouco, porque a "neblina" ajudou a evitar que o modelo "decorasse" os dados em vez de aprender de verdade.

Resumo Final

O CLICOOPER é como um sistema de cozinha cooperativa segura. Ele permite que pessoas com computadores fracos usem a força de muitos computadores juntos para criar Inteligência Artificial, sem nunca precisar mostrar seus dados secretos, sem medo de que os trabalhadores roubem o segredo, e garantindo que cada trabalhador receba crédito pelo seu esforço. É privacidade, justiça e eficiência, tudo em um só pacote.

Each language version is independently generated for its own context, not a direct translation.

Título: CLICOOPER: Um Framework de Aprendizado Dividido Cooperativo Multi-Cliente para Ambientes Parcialmente Confiáveis

1. O Problema

O Aprendizado Dividido (Split Learning - SL) tradicional permite que proprietários de dados com recursos limitados treinem modelos de IA sem expor seus dados brutos, delegando o cálculo para um servidor central. No entanto, o cenário atual evoluiu para ambientes sem servidor (serverless) e multi-cliente, onde múltiplos dispositivos de borda (com recursos computacionais fragmentados) colaboram para atuar como o "servidor" de treinamento.

Este novo cenário apresenta desafios críticos não resolvidos pelos frameworks de SL existentes:

Privacidade de Dados e Rótulos: Como garantir que o cliente que fornece os dados proteja não apenas as entradas brutos, mas também os rótulos (labels) e a semântica da tarefa contra clientes treinadores curiosos?
Propriedade e Rastreabilidade: Como os clientes treinadores podem provar criptograficamente que realizaram o treinamento de suas camadas específicas para receber compensação, evitando fraudes ou uso de modelos pré-treinados ("free-riding")?
Defesa contra Uso Não Autorizado: Como impedir que o modelo treinado colaborativamente seja extraído ou reutilizado por terceiros sem autorização?

2. Metodologia: O Framework CLICOOPER

O CLICOOPER é um framework projetado para ambientes heterogêneos e parcialmente confiáveis, onde um cliente fornece dados e vários outros fornecem poder computacional. A solução integra três mecanismos principais:

A. Expansão de Rótulos com Mapeamento Secreto (Secret-mapping Label Expansion)

Mecanismo: O cliente de dados (C) não envia os rótulos verdadeiros ( $Y$ ). Em vez disso, ele aplica um mapeamento secreto de um-para-muitos ( $G_Y$ ), expandindo cada classe verdadeira em várias pseudo-rótulos ( $Y^*$ ).
Proteção: Isso oculta a semântica da tarefa e a quantidade real de classes. Os dados são aumentados para corresponder ao espaço expandido de rótulos.
Uso: Apenas partes autorizadas que possuem o mapeamento inverso ( $G_Y^{-1}$ ) podem interpretar as previsões corretamente. Para atacantes, o modelo torna-se inutilizável.

B. Ativações Protegidas por Privacidade Diferencial (DP)

Mecanismo: Antes de enviar as ativações intermediárias (smashed activations) para os treinadores, o cliente aplica Privacidade Diferencial (DP).
Processo: As ativações são cortadas (clipping) para limitar a sensibilidade e, em seguida, ruído de Laplace é adicionado.
Objetivo: Impedir ataques de inversão (reconstrução de dados de entrada a partir das ativações) e agrupamento (inferência de grupos de classes a partir das ativações), garantindo que os treinadores não possam inferir dados brutos ou rótulos verdadeiros.

C. Marca D'água em Cadeia (Chained Watermarking)

Mecanismo: Para garantir a propriedade e a integridade do treinamento, cada cliente treinador ( $T_i$ ) embute uma marca d'água em seu segmento do modelo.
Encadeamento Criptográfico: A marca d'água de um treinador não é escolhida aleatoriamente; ela é derivada deterministicamente de um hash da ativação de saída do treinador anterior ( $T_{i-1}$ ), combinada com um nonce secreto e a identidade do nó.
Verificação: Um verificador confiável ( $V$ ) pode reconstruir a cadeia de marcas d'água. Se um treinador tentar pular etapas ou usar um modelo pré-treinado, a cadeia será quebrada e a propriedade não será validada. Isso cria uma linhagem de proveniência à prova de adulteração.

3. Principais Contribuições

Privacidade Robusta em SL Multi-Cliente: Combina expansão de rótulos e ruído DP para proteger dados brutos, rótulos e semântica da tarefa contra clientes internos (curiosos) e externos.
Proveniência e Propriedade Verificáveis: Introduz um esquema de marca d'água encadeada que vincula criptograficamente cada segmento do modelo ao fluxo de treinamento específico, permitindo auditoria de contribuição e compensação justa.
Defesa contra Extração de Modelos: Demonstra que, sem o mapeamento secreto, o modelo extraído via API (caixa preta) tem desempenho equivalente ao chute aleatório, neutralizando ataques de extração.
Validação em Escala: O framework foi testado em diversos datasets (MNIST, CIFAR-10/100, AG News) e arquiteturas (CNNs, Transformers), mantendo a precisão do modelo enquanto mitiga ataques.

4. Resultados Experimentais

Os experimentos demonstraram que o CLICOOPER equilibra eficazmente privacidade, utilidade e segurança:

Precisão do Modelo: A acurácia do modelo principal foi preservada, com ganhos de até 2% em alguns casos (devido ao efeito regularizador do ruído DP).
Resistência a Ataques de Agrupamento (Clustering): A taxa de sucesso de ataques que tentam inferir grupos de rótulos a partir das ativações caiu para 0% em tarefas de visão computacional (CIFAR).
Resistência a Ataques de Inversão (Reconstrução): A similaridade (SSIM) entre as imagens reconstruídas e os dados originais caiu drasticamente de 0.50 (baseline sem proteção) para 0.03 com DP forte.
Resistência a Extração de Modelos: Modelos substitutos treinados por atacantes usando apenas a API do modelo treinado alcançaram apenas ~1% de precisão (equivalente a chute aleatório), falhando em aprender a tarefa real.
Overhead: O tempo de incorporação e verificação de marca d'água é insignificante (na ordem de milissegundos) em comparação com o tempo total de treinamento.

5. Significado e Impacto

O CLICOOPER representa um avanço significativo para a economia de dados e serviços de IA descentralizados. Ele permite que:

Proprietários de dados com recursos limitados participem de treinamento de modelos complexos sem risco de vazamento de dados ou propriedade intelectual.
Provedores de computação (Edge/Cloud) possam colaborar de forma segura, recebendo compensação baseada em contribuições verificáveis, sem necessidade de um servidor central confiável.
Mercados de IA surjam com mecanismos de confiança integrados, onde a proveniência do modelo e a proteção contra uso não autorizado são garantidas criptograficamente.

Em resumo, o trabalho preenche a lacuna entre a privacidade de dados e a necessidade de rastreabilidade em ambientes de aprendizado distribuído cooperativo, tornando viável o treinamento de modelos de IA em ecossistemas descentralizados e parcialmente confiáveis.