Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um tradutor de imagens. O seu trabalho é pegar uma foto tirada durante o dia e transformá-la magicamente em uma foto noturna, perfeita para treinar carros autônomos a dirigirem no escuro.

O problema é que, até agora, esses "tradutores" (os modelos de IA) eram um pouco como alunos que estudaram demais, mas não entenderam a lição. Eles conseguiam deixar a foto escura e com luzes de neon, mas cometiam um erro grave: alucinações.

O Problema: O "Fantasma" na Foto

Quando a IA tenta transformar o dia em noite, ela fica tão obcecada em adicionar "estilo noturno" que começa a inventar coisas que não existem.

Ela vê uma parede vazia e pensa: "Ah, à noite tem que ter luzes!", então ela desenha um farol de carro fantasma.
Ela vê um poste e pensa: "Precisa de um sinal de trânsito!", e cria um semáforo verde que nunca existiu.

Isso é perigoso. Se um carro autônomo for treinado com essas fotos falsas, ele pode achar que há um pedestre ou um carro onde não há nada, causando acidentes.

A Solução: O "Detetive" e o "Guia de Referência"

Os autores deste artigo criaram um novo sistema que age como um detetive rigoroso e um guia de referência para corrigir essas alucinações. Eles chamam isso de "Supressão de Alucinação de Classe-Alvo".

Vamos usar duas analogias para entender como funciona:

1. O Detetive de Alucinações (O Discriminador de Dupla Cabeça)

Imagine que o tradutor de imagens tem um chefe que o vigia. Antes, esse chefe só olhava se a foto parecia "bonita" e "escura". Se a IA inventasse um farol falso, o chefe dizia: "Uau, que luz linda! Parabéns!", porque parecia realista.

O novo sistema tem um chefe com duas lentes:

Lente 1 (Estilo): Continua verificando se a foto parece uma noite bonita.
Lente 2 (Detetive de Objetos): Esta é a novidade. Ela olha para a foto e pergunta: "Esse farol está dentro de um carro? Não? Então é uma mentira!".

Como a IA não tem mapas perfeitos de onde estão os objetos na foto de noite, eles usam um truque inteligente: pegam as caixas de limites (bounding boxes) da foto de dia e usam uma IA superpoderosa (chamada SAM2) para criar "máscaras" de onde os objetos deveriam estar. Se a IA pintar um objeto fora dessas máscaras, o Detetive grita: "Pare! Isso é uma alucinação!".

2. O Guia de Referência (Os Protótipos)

Agora, imagine que você está aprendendo a desenhar carros. Você tem um "livro de referência" com fotos reais de carros à noite.

Quando a IA tenta desenhar um carro na foto, ela olha para o livro de referência e diz: "Ok, um carro real tem estas cores e formas".
Se a IA tentar desenhar um "carro fantasma" em um lugar onde não deveria ter carro (como no meio da calçada), o sistema compara esse desenho com o livro de referência.

O sistema usa uma técnica chamada aprendizado contrastivo. É como se o sistema dissesse: "O desenho que você fez aqui na calçada está muito parecido com um carro real (do livro). Isso é errado! A calçada deve parecer com calçada, não com carro. Vamos empurrar esse desenho para longe da ideia de 'carro'".

O Processo: Um Passo de Cada Vez

Em vez de transformar a foto de dia para noite de uma vez só (o que causa muitos erros), o sistema faz isso em vários passos pequenos, como subir uma escada.

Ele começa com a foto de dia.
Dá um pequeno passo em direção à noite.
O "Detetive" verifica: "Você inventou algo falso?".
Se sim, o "Guia de Referência" corrige o erro imediatamente.
Repete até chegar na noite completa.

O Resultado: Menos Fantasmas, Mais Segurança

Os testes mostraram que esse método é muito superior aos anteriores.

Qualitativamente: As fotos noturnas geradas são mais realistas e não têm "fantasmas" (faróis ou sinais falsos) aparecendo do nada.
Quantitativamente: Quando usaram essas fotos para treinar detectores de objetos, a precisão aumentou drasticamente. Em classes difíceis, como "semáforos", a precisão saltou quase 32%!

Resumo da Ópera:
Este trabalho ensina a IA a ser criativa na hora de mudar a iluminação (de dia para noite), mas a ser disciplinada na hora de desenhar objetos. É como ter um artista talentoso que, antes de pintar um novo objeto na tela, consulta um manual de instruções e um fiscal de obras para garantir que ele não está inventando coisas que não existem. Isso torna as fotos muito mais seguras para treinar carros autônomos.

Each language version is independently generated for its own context, not a direct translation.

Título: Ponte entre Dia e Noite: Supressão de Alucinações de Classe-Alvo em Tradução de Imagem Não Pareada

1. O Problema

A tradução de imagem não pareada (Unpaired Image-to-Image Translation - I2I) é crucial para tarefas de visão computacional em direção autônoma, permitindo a adaptação de conjuntos de dados anotados de condições diurnas para noturnas. No entanto, os métodos existentes (baseados em GANs ou Difusão) enfrentam desafios significativos:

Alucinações Semânticas: Devido à falta de supervisão pixel a pixel e a grandes deslocamentos de aparência, os modelos tendem a sintetizar incorretamente objetos de classes-alvo (como sinais de trânsito, veículos) e efeitos de luz artificiais em regiões de fundo não anotadas.
Degradação de Tarefas Downstream: Essas "alucinações" introduzem ruído de rótulo e falsos positivos, degradando severamente o desempenho de tarefas subsequentes, como detecção de objetos e segmentação semântica noturna.
Limitação de Métodos Atuais: Abordagens "conscientes de instância" (que usam caixas delimitadoras) focam apenas em preservar objetos anotados, mas falham em controlar regiões de fundo, permitindo que o gerador crie artefatos que imitam classes-alvo (ex: faróis falsos ou sinais de trânsito inexistentes).

2. Metodologia Proposta

Os autores propõem um novo framework baseado em Ponte de Schrödinger (Schrödinger Bridge) que realiza uma tradução iterativa em múltiplos passos, integrando dois componentes principais para detectar e suprimir alucinações:

A. Tradução Multi-Step Baseada em Ponte de Schrödinger

O modelo não mapeia a imagem fonte diretamente para o alvo em um único passo. Em vez disso, constrói uma cadeia de Markov de estados intermediários, refinando progressivamente a imagem. Isso suaviza a transição entre domínios grandes (dia $\to$ noite) e permite maior diversidade na tradução.

B. Detecção de Alucinações (Discriminador de Dupla Cabeça)

Problema: Os discriminadores convencionais focam em estilo global, incentivando o gerador a adicionar luzes e artefatos que imitam o estilo noturno, mesmo que semanticamente incorretos.
Solução: Um discriminador com duas cabeças:
1. Cabeça de Estilo ( $D_{sty}$ ): Avalia a realismo global.
2. Cabeça de Segmentação ( $D_{seg}$ ): Detecta alucinações semânticas.
Treinamento da Cabeça de Segmentação: Como os datasets de detecção possuem apenas caixas delimitadoras (e não máscaras de segmentação), os autores utilizam o modelo de segmentação foundation SAM2 (Segment Anything Model 2) para gerar máscaras pseudo-rótulo a partir das caixas delimitadoras. Essas máscaras supervisionam a cabeça $D_{seg}$ para identificar pixels de classes-alvo que aparecem fora das regiões anotadas originais.
Perda de Alucinação ( $L_{hl}$ ): Penaliza a ativação de classes-alvo em pixels de fundo (fora das caixas anotadas).

C. Supressão de Alucinações Intermediárias (Baseada em Protótipos)

Conceito: Para evitar que características de fundo se aproximem das características de objetos reais, o método utiliza protótipos de classe-alvo.
Construção de Protótipos: Agregam-se as características (features) dos objetos anotados no domínio alvo (noite) para criar um "âncora" semântica estável para cada classe (ex: um protótipo médio para "carro", outro para "semáforo").
Mecanismo de Supressão: Durante a tradução intermediária, se o modelo detectar pixels de fundo que se assemelham a uma classe-alvo (alucinação), aplica-se uma perda de contraste (InfoNCE).
- O pixel alucinado é forçado a se afastar do protótipo da classe correspondente no espaço de características.
- Isso reforça a separação semântica entre o fundo e os objetos reais, impedindo que o fundo "vire" um objeto falso.

3. Principais Contribuições

Framework de Supressão de Alucinações: Um sistema que detecta e suprime ativamente características de classes-alvo em regiões não anotadas durante a tradução não pareada.
Discriminador Consciente de Alucinação: Integração de uma cabeça de segmentação treinada com pseudo-rótulos (gerados via SAM2 a partir de caixas delimitadoras) para penalizar inconsistências semânticas, não apenas de estilo.
Supressão Baseada em Protótipos: Uso de protótipos de características do domínio alvo como âncoras negativas em aprendizado contrastivo para manter o fundo semanticamente distinto dos objetos.
Validação Empírica: Demonstração de redução significativa de alucinações e ganhos substanciais na precisão de detecção de objetos em diversos datasets.

4. Resultados Experimentais

Os experimentos foram realizados principalmente no dataset BDD100K (adaptação dia-noite) e no cenário KITTI $\to$ Cityscapes.

Desempenho em Detecção de Objetos (BDD100K):
- O método proposto alcançou um mAP (Average Precision) de 17.40, superando o estado da arte anterior (UNSB com 14.27) em 13.1%.
- O desempenho aproximou-se ou superou o "Limite Superior" (Upper Bound), que é o detector treinado em dados noturnos reais.
- Ganhos Específicos: Houve um aumento notável de 31.7% na precisão para classes propensas a alucinações, como semáforos (Traffic Lights), que caíram drasticamente em outros métodos.
- O método superou o "Limite Inferior" (Lower Bound) em todas as classes, enquanto muitos métodos concorrentes degradaram o desempenho abaixo do baseline diurno.
Qualidade Visual:
- A análise qualitativa (Figura 4) mostra que o método preserva melhor a estrutura dos objetos e evita a criação de faróis, luzes traseiras ou sinais de trânsito falsos no fundo, comuns em métodos como CycleGAN, CUT e InstaFormer.
Estudo Ablativo:
- A remoção da perda de segmentação ( $L_{hl}$ ) e da perda de supressão ( $L_{supp}$ ) resultou em uma queda drástica no mAP (de 17.40 para 14.11), provando que ambos os componentes são essenciais para o sucesso do framework.

5. Significância

Este trabalho aborda uma lacuna crítica na tradução de imagem não pareada: a integridade semântica. Ao focar não apenas em transformar o estilo (dia para noite), mas em garantir que o conteúdo semântico (o que é um objeto e o que é fundo) seja preservado, o método permite o uso seguro de dados sintéticos para treinar sistemas de direção autônoma. A capacidade de suprimir alucinações de classes-alvo é um avanço fundamental para aplicações onde a segurança e a precisão da detecção são prioritárias, superando as limitações de métodos que priorizam apenas a estética visual.

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

O Problema: O "Fantasma" na Foto

A Solução: O "Detetive" e o "Guia de Referência"

1. O Detetive de Alucinações (O Discriminador de Dupla Cabeça)

2. O Guia de Referência (Os Protótipos)

O Processo: Um Passo de Cada Vez

O Resultado: Menos Fantasmas, Mais Segurança

Título: Ponte entre Dia e Noite: Supressão de Alucinações de Classe-Alvo em Tradução de Imagem Não Pareada

1. O Problema

2. Metodologia Proposta

3. Principais Contribuições

4. Resultados Experimentais

5. Significância

Mais como este

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms