Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando organizar uma biblioteca gigante de receitas e ingredientes, mas os livros estão escritos em milhares de línguas diferentes, com nomes estranhos e variações confusas. "Açúcar de confeiteiro", "açúcar em pó" e "icing sugar" são a mesma coisa, mas para um computador, parecem três coisas totalmente diferentes.

O problema é que, para saber se um alimento é seguro ou quais nutrientes ele tem, precisamos padronizar tudo. É aqui que entra o FoodOntoRAG, a solução apresentada neste artigo.

Vamos usar uma analogia simples para entender como isso funciona e por que é melhor do que os métodos antigos.

O Problema: O "Estagiário" que precisa de um Curso Intensivo

Antes, para ensinar um computador a entender esses nomes de comida, os cientistas usavam uma técnica chamada Ajuste Fino (Fine-Tuning).

A Analogia: Imagine que você contrata um estagiário e precisa ensinar a ele a diferença entre "queijo parmesão" e "queijo parmesão em bloco". Você pega milhares de livros de receitas, lê cada um para ele, e ele decorá tudo.
O Problema: Se amanhã a biblioteca atualizar o livro de receitas (o que chamam de "deriva da ontologia" ou ontology drift), o estagiário fica obsoleto. Ele só sabe o que você ensinou. Para atualizá-lo, você tem que gastar muito dinheiro e tempo para "re-treiná-lo" com novos dados. Além disso, se ele encontrar um ingrediente novo que nunca viu, ele chuta a resposta e pode errar feio.

A Solução: O "Detetive" com um Manual Atualizado

O FoodOntoRAG muda a estratégia. Em vez de decorar tudo, ele usa um sistema de Busca e Raciocínio (RAG).

Imagine que o sistema não é um estagiário que decorou livros, mas sim um Detetive Inteligente que tem acesso a uma Enciclopédia da Comida (chamada FoodOn) que está sempre atualizada.

O processo funciona em 4 etapas, como se fosse uma equipe de detetives trabalhando juntos:

1. O Caçador (O Recuperador Híbrido)

Quando você digita "farinha de trigo integral", o Caçador não tenta adivinhar. Ele vai até a Enciclopédia e faz duas buscas ao mesmo tempo:

Busca pelas Palavras: Procura por palavras que soam iguais (como "farinha graham").
Busca pelo Sentido: Usa inteligência para entender que "integral" significa a mesma coisa que "whole wheat", mesmo que as palavras sejam diferentes.
Ele traz uma lista de 30 candidatos prováveis para a próxima etapa.

2. O Juiz (O Seletor)

Agora, o Juiz olha para a lista de 30 candidatos. Ele tem regras claras:

Se houver uma correspondência exata, ele escolhe.
Se houver várias opções, ele escolhe a mais específica (ex: "pão sírio" é melhor do que apenas "pão").
Ele faz sua escolha e escreve um pequeno relatório explicando por que escolheu aquele.

3. O Auditor (O Avaliador de Confiança)

Este é o passo mais importante. O Auditor lê o relatório do Juiz e pergunta: "Você tem certeza absoluta?".

Ele dá uma nota de 0 a 100%.
Se a nota for baixa (por exemplo, o Juiz escolheu "Lebanês" pensando em um tipo de pão, mas o texto falava sobre a nacionalidade), o Auditor diz: "Pare! Isso não está certo."

4. O Tradutor Criativo (O Gerador de Sinônimos)

Se o Auditor rejeitou a escolha, o sistema não desiste. Ele aciona o Tradutor Criativo.

O Tradutor pensa: "O Juiz errou porque o texto era ambíguo. Vamos tentar dizer a mesma coisa de outro jeito."
Ele cria novas versões da pergunta (ex: em vez de "Lebanês", tentar "pão do Líbano" ou "cuisine libanesa") e manda tudo de volta para o Caçador começar o ciclo de novo.

Por que isso é revolucionário?

Não precisa de "escola" (Ajuste Fino): O sistema não precisa ser re-treinado toda vez que a lista de ingredientes muda. Basta atualizar a Enciclopédia (a ontologia) e o sistema já sabe tudo. É como dar um novo livro de referência para o detetive, em vez de fazer ele decorar tudo de novo.
É Transparente: O sistema não apenas diz "é isso". Ele explica: "Escolhi este item porque a definição diz X e o sinônimo Y bate com o que você escreveu". Isso é crucial para segurança alimentar.
Lida com o Impossível: Se o sistema não tiver certeza, ele admite e pede ajuda humana, em vez de inventar uma resposta errada.

Os Resultados na Prática

Os autores testaram isso com dados reais de receitas e produtos de supermercado.

Em receitas, o sistema acertou cerca de 97% das vezes (quando consideramos que diferentes níveis de detalhe na enciclopédia podem ser ambos corretos).
Em produtos de marca (com aditivos químicos e corantes que os modelos antigos nunca viram), o FoodOntoRAG acertou 90%, enquanto o modelo antigo (que precisava de treino) acertou apenas 36%.

Conclusão

O FoodOntoRAG é como ter um assistente que nunca para de estudar, que consulta um manual atualizado em tempo real e que é honesto o suficiente para admitir quando não sabe a resposta, em vez de chutar. Isso torna a análise de alimentos mais segura, rápida e confiável, sem o custo enorme de reprogramar computadores toda vez que o mundo muda.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG", apresentado em português:

1. Problema e Contexto

A padronização de termos alimentares provenientes de rótulos de produtos e menus para conceitos de ontologia é um pré-requisito essencial para avaliações dietéticas confiáveis e relatórios de segurança alimentar. No entanto, a tarefa de Vinculação de Entidades Nomeadas (NEL) no domínio alimentar enfrenta desafios significativos:

Variabilidade Linguística: Sinônimos (ex: "açúcar de confeiteiro" vs. "açúcar em pó"), frases baseadas em funções (ex: "acidulante" vs. "ácido cítrico") e variantes multilíngues tornam a análise frágil.
Deriva de Ontologia (Ontology Drift): As ontologias (como FoodOn, SNOMED-CT) evoluem constantemente. Modelos tradicionais baseados em fine-tuning (ajuste fino) ficam presos a uma versão específica da ontologia e degradam seu desempenho quando a ontologia muda.
Custo Computacional: O fine-tuning contínuo de Grandes Modelos de Linguagem (LLMs) para acompanhar essas mudanças é computacionalmente caro e pouco escalável.

2. Metodologia: FoodOntoRAG

O artigo propõe o FoodOntoRAG, um pipeline de Geração Aumentada por Recuperação (RAG) que é agnóstico ao modelo e à ontologia. Em vez de treinar o modelo, ele recupera evidências estruturadas de ontologias e as usa para guiar um LLM. O sistema opera através de quatro agentes interconectados em um ciclo de feedback:

Agente Recuperador Híbrido (Hybrid Retriever):
- Combina recuperação lexical (usando o índice Whoosh com BM25 sobre rótulos, sinônimos e definições) e semântica (usando vetores densos gerados pelo modelo all-MiniLM-L6-v2 e indexados no FAISS).
- Retorna um conjunto pequeno e de alta recall de candidatos da ontologia FoodOn.
- Realiza fusão e filtragem, promovendo correspondências exatas de superfície e priorizando termos mais específicos.
Agente Selecionador (Selector Agent):
- Um LLM instruído a escolher a melhor entidade candidata com base em regras estritas:
  - Preferência por correspondência exata: Correspondências exatas (case-insensitive) a rótulos ou sinônimos dominam correspondências parciais.
  - Regra de Especificidade: Entre candidatos plausíveis, prefere-se o termo mais específico sobre um hiperônimo mais amplo.
- O agente deve justificar sua escolha e pode recusar a seleção se nenhuma opção for adequada (retornando ID "-1").
Agente Avaliador de Confiança (LLM Scorer):
- Avalia a proposta do selecionador e atribui uma pontuação de confiança contínua (0 a 1).
- Penaliza fortemente incompatibilidades de identidade (ex: confundir um país com um prato) e considera indicadores de formulação.
- Se a pontuação estiver abaixo de um limiar ( $\tau$ ), o agente sugere candidatos alternativos e dispara um mecanismo de retentativa.
Agente Gerador de Sinônimos (Synonym Generator):
- Ativado apenas quando o Scorer rejeita a seleção.
- Gera reformulações da consulta original (sinônimos diretos, variações de fraseado, nomes técnicos) para tentar recuperar a entidade correta em uma segunda passagem.
- O sistema limita-se a um "salto" (one-hop loop) para evitar deriva semântica excessiva.

3. Principais Contribuições

Pipeline sem Fine-Tuning: Demonstra que é possível alcançar precisão competitiva vinculando entidades alimentares sem treinar modelos específicos, reduzindo custos e dependência de snapshots de ontologia.
Robustez à Deriva de Ontologia: Ao basear-se na recuperação de evidências atualizadas da ontologia, o sistema adapta-se naturalmente a novas versões e vocabulários.
Decisões Interpretáveis: O sistema fornece justificativas estruturadas (rationales) para cada decisão, permitindo auditoria e identificação de lacunas nas anotações existentes.
Mecanismo de Feedback: A integração de um avaliador de confiança e um gerador de sinônimos cria um ciclo de auto-correção que melhora a cobertura de casos ambíguos.
Reprodutibilidade: Todos os artefatos (código, dados, ontologias versionadas e aplicação interativa) foram disponibilizados abertamente.

4. Resultados e Avaliação

O sistema foi avaliado em dois cenários principais:

Corpus CafeteriaFCD (Receitas):
- O FoodOntoRAG alcançou uma precisão inicial (Acc@1) de aproximadamente 59-60% sem retentativas.
- Após a análise manual das "falsas negativas", descobriu-se que muitas discordâncias eram devidas a diferenças de granularidade na ontologia (ex: classe vs. táxon) e não a erros do modelo. Após reavaliação considerando essas variações hierárquicas, a precisão ajustada atingiu 97%.
- O sistema mostrou-se robusto, mantendo a estabilidade da precisão mesmo com diferentes limiares de confiança.
Lista de Ingredientes de Produtos Marcados (Open Food Facts):
- Neste cenário do mundo real (com aditivos químicos e corantes não vistos no treinamento de modelos supervisionados), o FoodOntoRAG superou significativamente o modelo de fine-tuning (FoodSEM).
- FoodOntoRAG: 90,7% de precisão.
- FoodSEM (Fine-tuned): 36,9% de precisão.
- A queda drástica do modelo supervisionado deve-se à sua incapacidade de generalizar para entidades fora do conjunto de treinamento, enquanto o RAG recuperou corretamente os novos termos da ontologia.

5. Significado e Conclusão

O trabalho demonstra que a abordagem RAG é uma alternativa sustentável e superior ao fine-tuning para tarefas de vinculação de entidades em domínios dinâmicos como a nutrição.

Adaptabilidade: O sistema lida com a evolução das ontologias sem necessidade de retreinamento.
Transparência: As decisões são baseadas em evidências explícitas (definições, sinônimos, relações), facilitando a validação por especialistas.
Escalabilidade: A arquitetura modular permite a extensão para outras ontologias (ex: fármacos, doenças) sem custos adicionais de treinamento de modelos.

Em suma, o FoodOntoRAG oferece um caminho viável para a integração semântica escalável e confiável em aplicações de ciência de dados alimentares e de vida, superando as limitações de rigidez e custo dos métodos supervisionados tradicionais.