Prompt Tuning for CLIP on the Pretrained Manifold

O artigo apresenta o ManiPT, um framework que melhora o ajuste de prompts em modelos CLIP sob supervisão limitada ao restringir as representações aprendidas à variedade pré-treinada por meio de restrições de consistência e viés estrutural, resultando em melhor generalização e mitigação de overfitting.

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo CLIP) que foi treinado lendo milhões de livros e vendo bilhões de fotos. Ele conhece o mundo geral: sabe o que é um "cachorro", uma "cadeira" ou um "pôr do sol". Ele é muito inteligente, mas não foi treinado especificamente para a sua tarefa nova, como identificar raças específicas de cães de raça pura ou detectar doenças raras em raios-X.

O problema é que, quando tentamos ensinar esse gênio uma tarefa nova com pouquíssimos exemplos (digamos, apenas 5 fotos de cada tipo), ele tende a "aprender errado". Ele começa a decorar detalhes irrelevantes, como o fundo da foto ou a textura do papel, em vez de aprender o conceito real. É como um aluno que, para passar numa prova difícil com pouco tempo de estudo, decora as respostas de um único livro de exercícios, mas falha se a pergunta for feita de um jeito diferente.

Os pesquisadores deste paper chamam esse fenômeno de "Deriva do Manifold" (Manifold Drift). Em linguagem simples: o modelo sai do "caminho seguro" onde ele é inteligente e confiável, e começa a andar por atalhos perigosos que funcionam só para aquele pequeno conjunto de dados, mas falham no mundo real.

A Solução: O ManiPT (O Guia de Navegação)

Os autores criaram uma nova técnica chamada ManiPT. Pense nela como um GPS de alta precisão que impede o modelo de se perder.

Aqui está como funciona, usando analogias do dia a dia:

1. A "Bússola de Consistência" (Restrições de Cosseno)

Imagine que o conhecimento prévio do modelo é um grande parque (o "manifold pré-treinado"). Quando o modelo aprende algo novo, ele deve ficar caminhando dentro desse parque, perto das trilhas principais que ele já conhece.

O ManiPT usa uma "bússola" que verifica constantemente: "Ei, você ainda está perto da trilha principal?".

  • No Texto: Se o modelo está aprendendo sobre "gatos", ele é forçado a manter a descrição do gato próxima à ideia geral de "gato" que ele já tinha, em vez de inventar uma definição estranha baseada apenas nas 5 fotos que você mostrou.
  • Na Imagem: Se a foto é de um gato, a representação visual deve permanecer próxima ao que o modelo já sabe que é um gato, sem se distorcer para capturar apenas o tapete onde o gato está sentado.

Isso evita que o modelo "saia do parque" e se perca em áreas desconhecidas e perigosas.

2. O "Corretor Incremental" (Viés Estrutural)

Aqui está a parte mais inteligente. Muitas vezes, os métodos anteriores tentam substituir o conhecimento antigo pelo novo. O ManiPT faz o oposto: ele age como um editor de texto experiente.

Imagine que você tem um rascunho de um livro (o conhecimento antigo) e precisa adicionar uma nova página.

  • Métodos antigos: Rasgariam o livro inteiro e escreveriam um novo do zero, correndo o risco de perder a essência da história.
  • ManiPT: Ele pega o livro original, lê a página, e faz pequenas anotações nas margens (os "prompts") para ajustar a história. Ele não muda o livro inteiro; ele apenas faz correções sutis e incrementais.

Essa técnica garante que o modelo faça apenas ajustes necessários, seguindo a direção que já funciona bem, em vez de tentar reinventar a roda.

3. O "Mentor com IA" (Enriquecimento de Conhecimento)

Para ajudar o modelo a entender o que ele deve aprender, o ManiPT usa uma Inteligência Artificial (LLM) para escrever descrições ricas e detalhadas de cada classe (ex: em vez de só "cachorro", a IA descreve "um animal de quatro patas, com pelo, orelhas caídas e cauda abanando"). Isso serve como uma âncora de ouro, garantindo que o modelo tenha uma referência sólida e rica para se apoiar, em vez de depender apenas de poucas fotos.

Por que isso é importante?

Em resumo, o ManiPT resolve o problema de "estudar demais para a prova errada".

  • Sem ManiPT: O modelo estuda apenas as 5 fotos que você deu, memoriza o fundo e falha quando vê um cachorro em outro lugar.
  • Com ManiPT: O modelo usa o que já sabe (o conhecimento geral), faz ajustes pequenos e seguros, e continua sendo inteligente e generalizável.

Os testes mostraram que, em situações com poucos dados (como identificar novas raças de animais ou adaptar-se a novos estilos de fotos), o ManiPT supera todos os outros métodos, mantendo o modelo estável e preciso, sem "alucinar" ou esquecer o que ele já sabia. É como dar ao gênio da lâmpada um mapa e um guia, para que ele possa aprender novas tarefas sem se perder no caminho.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →