Agent-OM: Leveraging LLM Agents for Ontology Matching

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem dois dicionários gigantes: um escrito em um dialeto antigo e outro em um dialeto moderno. O objetivo é encontrar quais palavras significam a mesma coisa em ambos. Isso é o que chamamos de Correspondência de Ontologias (ou Ontology Matching). Antigamente, fazer isso era como tentar juntar essas duas listas manualmente, o que exigia especialistas humanos gastando dias ou semanas. Depois, vieram os computadores, mas eles muitas vezes erravam porque não entendiam o "sentido" das palavras, apenas a forma.

Agora, chegou a era da Inteligência Artificial (os Grandes Modelos de Linguagem, ou LLMs, como o ChatGPT). Eles são ótimos em entender linguagem, mas têm dois grandes defeitos:

Alucinação: Eles às vezes inventam fatos que parecem verdadeiros, mas não são.
Cegueira de Contexto: Eles não lembram de tudo o que leram antes e têm dificuldade em planejar tarefas complexas.

Aqui entra o Agent-OM, a solução proposta por este artigo.

A Analogia: O Detetive com uma Equipe de Apoio

Em vez de pedir para um único "robô inteligente" (o LLM) tentar adivinhar todas as correspondências de uma vez (o que levaria a muitos erros e custos altos), os autores criaram o Agent-OM.

Pense no Agent-OM não como um único gênio solitário, mas como um Detetive Chefe que lidera uma equipe especializada.

O Cérebro Central (LLM): É o Detetive Chefe. Ele não faz todo o trabalho braçal. Sua função é planejar, dar ordens e tomar as decisões finais. Ele usa uma técnica chamada "Cadeia de Pensamento" (CoT), que é como se ele falasse em voz alta: "Primeiro, vou procurar o nome, depois o significado, depois a categoria..." antes de agir.
Os Ferramentas (Tools): O Detetive não carrega um banco de dados na cabeça. Ele usa ferramentas:
- O Arquivista (Retrieval Agent): Ele vai até a biblioteca (o banco de dados híbrido), pega a ficha do "Programa de Comitê" e resume as informações para o chefe.
- O Tradutor (Matching Agent): Ele compara a ficha do "Programa de Comitê" com as fichas do outro dicionário.
- O Verificador (Validator): Antes de fechar o caso, ele pergunta ao Detetive: "Tem certeza que isso é a mesma coisa? Vamos revisar o contexto." Isso evita que o robô alucine e invente conexões.
A Memória Compartilhada: O Detetive e sua equipe têm um quadro de avisos (memória de curto e longo prazo). Tudo o que é descoberto é anotado lá. Se o Detetive precisa lembrar de algo que viu há 10 páginas atrás, ele olha no quadro, em vez de tentar decorar tudo.

Como Funciona na Prática?

Imagine que você quer encontrar o equivalente de "Programa de Comitê" em outro sistema.

O Jeito Antigo (Só LLM): Você pergunta ao robô: "O que é Programa de Comitê? É igual a 'Chair_PC'?". O robô tenta adivinhar. Se ele estiver cansado ou confuso, ele pode dizer "Sim" quando a resposta é "Não". Além disso, se você tiver 1.000 palavras para comparar, você teria que fazer 1 milhão de perguntas (1.000 x 1.000), o que é caro e lento.
O Jeito Agent-OM:
1. O sistema primeiro organiza as informações em uma base de dados inteligente (como um índice de livro).
2. Em vez de comparar tudo com tudo, ele busca apenas os candidatos mais prováveis (como olhar apenas as palavras que começam com a mesma letra).
3. O Detetive Chefe analisa apenas esses poucos candidatos, usa o contexto para entender o significado real e pede ao Verificador para confirmar.
4. Só então ele decide: "Sim, são a mesma coisa".

Por que isso é um avanço?

Precisão vs. Memória: O sistema é muito bom em tarefas difíceis e complexas (onde há poucas informações de exemplo), superando os sistemas antigos. Em tarefas simples, ele fica no mesmo nível dos melhores.
Economia: Ao usar uma busca inteligente em vez de comparar tudo com tudo, o sistema gasta muito menos "dinheiro" (tokens) e tempo.
Segurança: O sistema de verificação reduz drasticamente as "alucinações" (erros de invenção) que os robôs costumam cometer.

O Paradoxo do Trabalho (Moravec's Paradox)

Os autores fazem uma observação engraçada e curiosa:

Tarefas Difíceis (para humanos): Entender o contexto de uma palavra em um texto complexo é fácil para o robô.
Tarefas Fáceis (para humanos): Fazer uma comparação simples e direta de duas palavras idênticas às vezes é onde o robô trava ou erra mais, porque ele tenta "pensar demais" e complicar.

Conclusão

O Agent-OM é como transformar um robô solitário e propenso a erros em um escritório de detetives organizado. Eles usam ferramentas, consultam arquivos, planejam cada passo e verificam o trabalho uns dos outros. O resultado é um sistema que consegue unir dicionários de conhecimentos diferentes com muito mais precisão, rapidez e inteligência do que qualquer método anterior, abrindo caminho para que computadores entendam e conectem o conhecimento humano de verdade.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Agent-OM

1. Problema e Motivação

O Casamento de Ontologias (Ontology Matching - OM) é uma tarefa essencial para a interoperabilidade semântica, visando alinhar entidades relacionadas entre duas ontologias diferentes para resolver heterogeneidade conceitual. Os sistemas tradicionais de OM dividem-se em dois paradigmas:

Baseados em Conhecimento: Utilizam lógica pré-definida e conhecimento de especialistas (ex: LogMap, AML). São precisos, mas intensivos em mão de obra e recursos.
Baseados em Aprendizado de Máquina (ML): Utilizam modelos treinados (ex: BERTMap). Requerem grandes volumes de dados de alta qualidade para treinamento, o que é inviável para muitos domínios de ontologia (que possuem poucas entidades) e apresenta riscos de vazamento de dados sensíveis.

A aplicação direta de Modelos de Linguagem de Grande Escala (LLMs) para OM enfrenta desafios significativos:

Falta de Informação Recente: LLMs são pré-treinados e não capturam informações de última hora.
Alucinações: Em tarefas específicas de domínio, os LLMs tendem a gerar respostas sintaticamente corretas, mas factualmente erradas.
Limitações em Tarefas Não-Linguísticas: LLMs têm dificuldade em planejamento, roteamento e lógica complexa, sendo originalmente projetados para perguntas e respostas sequenciais.

O objetivo deste trabalho é superar essas limitações introduzindo um novo paradigma baseado em Agentes LLM para tarefas de OM.

2. Metodologia: Framework Agent-OM

Os autores propõem o Agent-OM, um framework genérico que utiliza agentes autônomos impulsionados por LLMs para automatizar o processo de casamento de ontologias. A arquitetura é composta por dois agentes "Siameses" (independentes, mas que compartilham memória): o Agente de Recuperação (Retrieval Agent) e o Agente de Casamento (Matching Agent).

Componentes Principais:

Cérebro Central (LLM): Atua como controlador, orquestrando módulos e instruindo funções através de engenharia de prompts.
Planejamento (CoT): Utiliza Chain-of-Thought (Cadeia de Pensamento) para decompor tarefas complexas de OM em sub-tarefas gerenciáveis.
Ferramentas (Tools): Um conjunto de ferramentas que mitigam alucinações e permitem acesso a recursos externos:
- Recuperação de Metadados, Sintaxe, Léxico e Semântica: Extraem informações internas da ontologia e contextos externos (usando prompts para simular bases de conhecimento como Wikidata).
- Armazenamento Híbrido: Combina um banco de dados relacional (para metadados) e um banco de dados vetorial (para conteúdo semântico/lexical). Isso permite buscas eficientes por similaridade, evitando a comparação binária exaustiva de todos os pares de entidades ( $N_s \times N_t$ ).
Memória:
- Curto Prazo: Diálogo conversacional para manter o contexto imediato.
- Longo Prazo: Uso de RAG (Retrieval-Augmented Generation) e ICL (In-Context Learning) para recuperar informações relevantes sem necessidade de fine-tuning do modelo.

Fluxo de Trabalho:

Agente de Recuperação: Extrai entidades das ontologias de origem e destino, processa metadados, normaliza texto (tokenização), gera descrições léxicas e semânticas (verbalização de triples) e armazena tudo no banco de dados híbrido.
Agente de Casamento:
- Realiza buscas no banco de dados híbrido para encontrar candidatos a correspondência.
- Utiliza fusão de rank recíproco (RRF) para combinar resultados de matching sintático, lexical e semântico.
- Validação: O agente faz uma pergunta binária ao LLM ("Esta entidade é equivalente àquela?") para verificar a correspondência, reduzindo falsos positivos.
- Fusão (Merger): Combina os resultados das buscas diretas (Origem $\to$ Destino) e inversas (Destino $\to$ Origem), mantendo apenas correspondências bidirecionais para garantir consistência.

3. Contribuições Chave

Novo Paradigma de Design: Introdução do primeiro framework baseado em agentes LLM para OM, superando as limitações de abordagens puramente baseadas em prompts ou fine-tuning.
Arquitetura Siamesa: Uso de dois agentes especializados (Recuperação e Casamento) que compartilham memória, permitindo escalabilidade e reutilização de informações.
Mitigação de Alucinações: Implementação de validação automática (Self-Check) e fusão de resultados bidirecionais para aumentar a confiabilidade.
Eficiência Computacional: Substituição da comparação exaustiva de pares por uma abordagem baseada em busca (Search-based) usando bancos de dados vetoriais, tornando o processo viável para grandes ontologias.
Implementação e Avaliação: Desenvolvimento de um sistema proof-of-concept testado em múltiplos modelos (API e Open Source) e benchmarks padrão.

4. Resultados Experimentais

O sistema foi avaliado em três trilhas do OAEI (Ontology Alignment Evaluation Initiative): Conferência, Anatomia e Materiais (MSE).

Desempenho em Tarefas Simples: O Agent-OM alcançou resultados muito próximos ao melhor desempenho histórico em tarefas simples (ex: correspondências triviais de rótulos), competindo com sistemas de ponta como Matcha e OLaLa.
Desempenho em Tarefas Complexas e Few-Shot: O sistema demonstrou melhorias significativas em tarefas complexas e com poucos exemplos (few-shot), onde os métodos tradicionais e ML puro falham devido à falta de dados de treinamento.
- Na trilha de Anatomia (correspondências não triviais), o Agent-OM superou 11 dos 12 sistemas comparados, ficando atrás apenas de um sistema baseado em Deep Learning que se beneficiou de um conjunto de treinamento excepcionalmente grande.
- Na trilha de MSE, obteve o melhor desempenho em precisão, recall e F1-score em vários casos de teste.
Hiperparâmetros Otimizados:
- Similaridade Threshold ( $T$ ): Otimizado entre 0.90 e 0.95.
- Top@k: Otimizado entre 3 e 5.
Ablation Study:
- A arquitetura completa (com ferramentas e memória) superou significativamente abordagens "LLM-only" ou "LLM-with-Context" (que sofrem com alto consumo de tokens e instabilidade).
- Modelos comerciais via API (ex: GPT-4o, Claude-3-Sonnet) performaram melhor que modelos de código aberto, embora o Gemma-2-9b tenha se destacado entre os open-source.

5. Significado e Conclusão

O Agent-OM demonstra que o uso de agentes LLM com planejamento, ferramentas e memória é superior ao uso direto de LLMs para tarefas de casamento de ontologias.

Eficiência: Reduz drasticamente o custo de tokens ao evitar comparações binárias exaustivas.
Eficácia: A capacidade de raciocínio transitivo, aprendizado de contexto e auto-correção permite lidar com ontologias complexas sem necessidade de re-treinamento do modelo base.
Paradoxo de Moravec: Os autores observam que, embora o sistema lide bem com problemas complexos (raciocínio semântico), ele ainda enfrenta desafios em tarefas "fáceis" (correspondências triviais), sugerindo que a integração futura com métodos baseados em conhecimento tradicional pode ser benéfica.

Em suma, o trabalho estabelece que a automação completa e independente de domínio do casamento de ontologias está se tornando viável, utilizando uma abordagem leve, escalável e orientada por linguagem natural.

Agent-OM: Leveraging LLM Agents for Ontology Matching

A Analogia: O Detetive com uma Equipe de Apoio

Como Funciona na Prática?

Por que isso é um avanço?

O Paradoxo do Trabalho (Moravec's Paradox)

Conclusão

Resumo Técnico: Agent-OM

1. Problema e Motivação

2. Metodologia: Framework Agent-OM

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Markovian Transformers for Informative Language Modeling

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

A Survey of Large Language Models

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph