Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está mergulhando em um oceano profundo. A água é linda, mas ela age como um "filtro sujo" para a sua câmera. A luz não passa direito, as cores ficam esverdeadas ou avermelhadas, e tudo parece embaçado, como se você estivesse olhando através de um vidro cheio de gordura. Tentar ver o que está lá embaixo é um pesadelo para biólogos, arqueólogos e robôs.

Este artigo apresenta uma solução inteligente chamada PSG-UIENet. Para explicar como funciona, vamos usar uma analogia simples: Imagine que a imagem subaquática é um prato de comida estragado e sujo.

O Problema: O Prato Sujo

As fotos subaquáticas têm dois problemas principais:

A iluminação está errada: A luz não chega direito (como se você estivesse comendo no escuro).
A cor e o detalhe estão perdidos: A água "rouba" as cores e o contraste.

Antigamente, os cientistas tentavam consertar isso de duas formas:

Receitas fixas (Baseadas em Física): Eles criavam regras rígidas, como "se a água estiver azul, adicione amarelo". O problema é que o oceano muda muito; o que funciona num lugar não funciona no outro.
Aprendizado de máquina (Redes Neurais): Eles ensinavam computadores a "adivinhar" a foto perfeita, mostrando milhares de exemplos. O problema aqui é que faltam exemplos reais e de alta qualidade para treinar a máquina.

A Solução: O Chef com um Guia de Receitas e um Crítico

Os autores criaram um novo sistema que combina o melhor dos dois mundos, usando uma ideia chamada Retinex (que é como o nosso cérebro separa a luz da cor de um objeto) e, pela primeira vez, texto.

Pense no sistema deles como um Chef de Cozinha (a Rede Neural) que está tentando restaurar a foto. Mas ele não trabalha sozinho. Ele tem dois ajudantes especiais:

O Ajudante de Iluminação (Estimador de Iluminação Livre de Priors):
- A Analogia: Imagine que a foto está muito escura ou com uma luz ruim. Este ajudante não usa regras fixas. Ele "sente" a foto e ajusta a luz de forma inteligente, como se fosse um fotógrafo profissional que sabe exatamente quanto flash usar em cada canto da imagem. Ele prepara o prato para que a comida (a imagem) fique visível.
O Crítico de Comida com Descrição (O Guia de Texto):
- A Grande Inovação: Aqui está a mágica. Antes, o computador só olhava para a foto. Agora, os autores criaram um livro de receitas gigante (o novo banco de dados LUIQD-TD) que contém:
  - A foto estragada.
  - A foto perfeita.
  - Uma descrição em texto do que deveria estar na foto (ex: "Um tubarão nadando em águas cristalinas perto de um recife de coral").
- Como funciona: O sistema usa um modelo de linguagem (como o CLIP, que entende texto e imagem) para ler essa descrição. Se a foto está ficando muito azulada e o texto diz "água cristalina", o sistema sabe: "Ei, isso não está certo! O texto diz que deve ser claro, então vamos corrigir a cor".
- É como se o Chef tivesse um crítico de gastronomia ao lado dizendo: "Isso aqui deveria ser um peixe dourado, não um peixe cinza! Corrija isso!".

O Processo de "Limpeza"

O sistema funciona em etapas:

Iluminação: Primeiro, ele ajusta a luz da foto bruta, tirando a "névoa" da água.
Máscara Mágica: Ele cobre aleatoriamente partes da foto (como se estivesse escondendo pedaços do prato) e pede para a rede neural adivinhar o que está por trás, usando a descrição de texto como dica. Isso força o computador a aprender o significado das coisas, não apenas a cor.
Fusão: Ele junta tudo: a foto ajustada, a luz corrigida e o significado do texto. O resultado é uma imagem que não só parece bonita, mas que faz sentido com o que está escrito.

O Banco de Dados (O "Livro de Receitas")

Os autores perceberam que ninguém tinha um livro de receitas com fotos e textos juntos para o oceano. Então, eles criaram o LUIQD-TD. É um banco de dados enorme com mais de 6.000 fotos de lugares subaquáticos, cada uma com sua foto original, sua versão perfeita e uma descrição detalhada do que se vê ali. Isso é como dar ao computador um dicionário visual e textual para aprender.

O Resultado

Quando testaram esse sistema contra outros 15 métodos modernos, o PSG-UIENet venceu ou empatou na maioria das vezes.

As fotos ficaram mais nítidas.
As cores voltaram a ser naturais (o verde e o vermelho que a água "escondeu").
E o mais importante: a imagem final respeita o que o texto descreve. Se o texto fala de um "recife colorido", a foto não sai cinza.

Resumo Final

Em resumo, os pesquisadores criaram um "super-herói" para fotos subaquáticas. Em vez de apenas tentar "desembaçar" a imagem com regras matemáticas, eles ensinaram o computador a ler descrições do que deveria estar na foto. É como se eles tivessem dado óculos de realidade aumentada para a inteligência artificial, permitindo que ela veja o que está "por trás" da água suja, guiada pela linguagem humana.

Isso abre portas para robôs explorarem o fundo do mar com mais precisão, biólogos estudarem a vida marinha com mais clareza e para qualquer pessoa ver a beleza do oceano como ela realmente é.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

As imagens subaquáticas sofrem frequentemente de degradação severa devido às propriedades ópticas da água, como absorção, dispersão (scattering) e partículas suspensas. Isso resulta em distorção de cor, baixo contraste e visibilidade reduzida.

As abordagens existentes para o Realce de Imagem Subaquática (UIE) dividem-se em duas categorias principais, ambas com limitações:

Baseadas em Priors (Físicos): Dependem de suposições físicas rígidas (como o prior do canal escuro) que limitam a adaptabilidade a diferentes ambientes subaquáticos.
Baseadas em Aprendizado (Deep Learning): Frequentemente enfrentam escassez de dados reais e generalização fraca. Além disso, a maioria ignora informações semânticas de alto nível, focando apenas em correspondências de pixels.

Existe uma lacuna na integração de priors físicos (como a teoria de Retinex) com informações semânticas (texto) para guiar o processo de realce, agravada pela falta de conjuntos de dados multimodais (imagem-texto) específicos para o domínio subaquático.

2. Metodologia: PSG-UIENet

Os autores propõem a PSG-UIENet (Physics-Semantics-Guided Underwater Image Enhancement Network), uma rede que acopla a correção de iluminação baseada em Retinex com orientação informada por linguagem. A arquitetura consiste em três módulos principais:

A. Estimador de Iluminação Livre de Priors (Prior-Free Illumination Estimator)

Inspirado na teoria de Retinex ( $I = R \cdot L$ ), mas reformulado para lidar com perturbações subaquáticas.
Em vez de usar prios físicos manuais rígidos, estima mapas de iluminação em múltiplas escalas (16x16, 32x32, 64x64) de forma orientada por dados.
O objetivo é gerar uma imagem "iluminada" ( $I_{lit}$ ) que corriza desequilíbrios de exposição, servindo como entrada normalizada para a etapa seguinte.

B. Alinhador de Texto Cross-Modal (Cross-Modal Text Aligner)

Utiliza o modelo CLIP (Contrastive Language-Image Pre-training) para extrair representações textuais.
Emprega um bloco de projeção aprendível e um codificador Transformer com atenção multi-cabeça para alinhar as características da imagem com as descrições textuais em um espaço semântico unificado.
Isso permite que a rede entenda o contexto da cena (ex: "recife de coral", "nave afundada") descrito no texto.

C. Restaurador de Imagem Guiado por Semântica (Semantics-Guided Image Restorer)

Utiliza uma arquitetura de Encoder-Decoder de duas ramificações com uma estratégia de mascaramento (inspirada em MAE - Masked Autoencoders).
Ramificação de Semântica: Recebe a imagem com pixels mascarados aleatoriamente e usa as características textuais alinhadas para reconstruir as áreas ocultas, forçando a rede a aprender dependências semânticas de alto nível.
Ramificação de Imagem: Processa a imagem completa para preservar detalhes finos e integridade estrutural.
Módulo CFM (Cross-Attention FiLM Module): No gargalo (bottleneck) da rede, este módulo utiliza atenção cruzada para gerar parâmetros de escala e deslocamento (FiLM) dinâmicos, modulando as características visuais com base na semântica textual global.

Função de Perda (Loss Function)

Para otimizar a consistência semântica entre o texto e a imagem realçada, os autores propõem uma nova perda chamada ITSS (Image-Text Semantic Similarity). Ela minimiza a diferença entre a similaridade coseno da imagem realçada com o texto e a similaridade da imagem de referência com o mesmo texto. A perda total combina MSE, SSIM, Perda Perceptual e a perda ITSS.

3. Contribuições Chave

Arquitetura Híbrida: Primeira rede UIE que integra prios físicos (Retinex) com orientação semântica textual, superando as limitações de métodos puramente baseados em dados ou em prios rígidos.
Novo Conjunto de Dados (LUIQD-TD): Construção do primeiro conjunto de dados multimodal em larga escala para UIE, contendo 6.418 tripletas (Imagem Degradação, Imagem de Referência, Descrição Textual).
Mecanismo de Fusão e Perda: Introdução do módulo CFM para fusão adaptativa e da perda ITSS para garantir que a imagem realçada seja semanticamente consistente com a descrição textual.
Desempenho Superior: Validação extensiva contra 15 métodos state-of-the-art (SOTA).

4. Resultados Experimentais

Os experimentos foram conduzidos em cinco conjuntos de dados de teste (incluindo o novo LUIQD-TD, UIEB, SUIM-E e SQUID).

Métricas com Referência (PSNR, SSIM, LPIPS): A PSG-UIENet alcançou consistentemente o melhor desempenho em todas as métricas nos conjuntos de dados com referência, superando métodos baseados em Retinex (como Retinexformer e RetinexMamba) e métodos guiados por texto anteriores (como CLIP-LIT).
Métricas sem Referência (PAUQA, UIF): A rede obteve o segundo melhor desempenho geral, demonstrando alta qualidade visual e fidelidade perceptual, mesmo em cenários desafiadores sem imagem de referência.
Análise Qualitativa: As imagens realçadas pela PSG-UIENet apresentaram cores mais naturais e vivas, com menos distorções e artefatos em comparação aos concorrentes, mantendo a coerência semântica descrita no texto (ex: texturas de corais e detalhes de naufrágios).
Estudo de Ablação: Confirmou que a remoção de qualquer componente (Estimador de Iluminação, Alinhador de Texto, CFM) ou a exclusão da modalidade textual resulta em queda significativa de desempenho, validando a importância de cada parte do sistema.

5. Significado e Impacto

Este trabalho representa um avanço significativo no campo da visão computacional subaquática ao:

Estabelecer um novo paradigma que une física (Retinex) e linguagem (CLIP) para realce de imagens.
Resolver o problema de escassez de dados ao fornecer o LUIQD-TD, um benchmark essencial para futuras pesquisas em aprendizado multimodal subaquático.
Demonstrar que a orientação semântica textual pode guiar a restauração de detalhes e cores de forma mais robusta do que apenas a otimização de pixels, abrindo caminho para sistemas de UIE mais adaptáveis e inteligentes para aplicações em biologia marinha, arqueologia e robótica subaquática.