Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

Este artículo presenta un marco de RAG basado en grafos que combina grafos de propiedades etiquetadas (LPG) y el Marco de Descripción de Recursos (RDF) para superar las limitaciones de los métodos tradicionales, logrando una recuperación dinámica, una conversión eficiente de documentos a tripletes RDF y una traducción de texto a Cypher con más del 90% de precisión, lo que resulta en un rendimiento superior en tareas complejas y semi-estructuradas.

Manie Tadayon, Mayank Gupta

Publicado 2026-03-25
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un bibliotecario de inteligencia artificial (un modelo de lenguaje o LLM) que es extremadamente inteligente, pero tiene un problema: su memoria se quedó congelada en el momento en que fue "educado". Si le preguntas algo que ocurrió ayer o sobre un dato muy específico que no estaba en sus libros de texto, o bien no sabe la respuesta o, peor aún, alucina (inventa una respuesta que suena muy convincente pero es falsa).

Para solucionar esto, los investigadores de Capital Group (Manie Tadayon y Mayank Gupta) probaron diferentes formas de darle "libros de consulta" a este bibliotecario en tiempo real. Su conclusión es que la forma tradicional de hacerlo ya no es suficiente para datos complejos, y que los gráficos (Graphs) son la solución.

Aquí te explico su investigación usando analogías sencillas:

1. El Problema: Buscar una aguja en un pajar (RAG Tradicional)

Imagina que tienes una montaña de papeles desordenados (tus datos financieros, como fondos de inversión).

  • El método antiguo (RAG con vectores): Cuando alguien hace una pregunta, el sistema busca en esa montaña de papeles los que "suenan" parecidos a la pregunta. Es como si el bibliotecario cerrara los ojos, tirara un dardo al montón y leyera los papeles que cayeron cerca.
  • El fallo: Si la montaña es enorme o si la pregunta es muy específica (ej: "¿Qué fondos tienen un gestor llamado 'Juan' y un rendimiento del 5%?"), el sistema se pierde. No sabe cuántos papeles buscar. Si busca pocos, se le escapa la información; si busca muchos, se ahoga en ruido y el bibliotecario se confunde. Además, los datos financieros a menudo vienen en listas ordenadas (JSON), no en párrafos de texto, lo que hace que esta búsqueda por "sonido" sea muy ineficiente.

2. La Solución: Un Mapa del Tesoro (Graph RAG)

En lugar de una montaña de papeles desordenados, los autores proponen convertir toda esa información en un Mapa del Tesoro gigante y conectado.

En este mapa:

  • Cada fondo de inversión es un nodo (un punto en el mapa).
  • Las relaciones entre ellos (como "tiene el gestor X" o "sigue el índice Y") son caminos (líneas que conectan los puntos).

El paper compara dos tipos de mapas muy potentes:

A. El Mapa de Etiquetas y Propiedades (LPG - Labeled Property Graph)

Imagina que este mapa es como un sistema de metro muy bien diseñado.

  • Cada estación tiene un nombre claro (ej: "Fondo AMCAP").
  • Las líneas de metro tienen nombres específicos (ej: "Línea de Gestores", "Línea de Rendimiento").
  • La magia: Si quieres saber "¿Quién gestiona el fondo AMCAP?", no necesitas leer miles de papeles. Solo sigues la línea de metro "Gestores" desde la estación "AMCAP" y llegas directo a la respuesta.
  • El truco: El sistema traduce tu pregunta en lenguaje natural ("¿Quién gestiona AMCAP?") a un "idioma de instrucciones" llamado Cypher (como un GPS que le dice al mapa exactamente qué ruta tomar).
  • Resultado: Es increíblemente rápido y preciso, especialmente para preguntas complejas que requieren saltar de un punto a otro (ej: "¿Qué fondos gestiona la persona que también gestionó el fondo Z?").

B. El Mapa de Triplets (RDF - Resource Description Framework)

Imagina este mapa como un gigantesco libro de recetas de cocina donde cada línea es una frase simple: "El ingrediente A tiene la propiedad B".

  • En lugar de un mapa de metro, es una lista masiva de hechos conectados.
  • El sistema busca en esta lista las frases que encajan con tu pregunta y las une para formar la respuesta.
  • Resultado: También funciona muy bien y es muy flexible, pero a veces es un poco más lento que el "mapa de metro" (LPG) cuando las preguntas son muy complicadas.

3. ¿Qué descubrieron? (Los Resultados)

Los autores probaron sus métodos contra el método antiguo (el bibliotecario que busca en el montón de papeles) usando 200 preguntas difíciles sobre fondos de inversión.

  • El método antiguo (RAG Agentic): Se equivocó mucho. A menudo inventaba datos o no encontraba la información porque no sabía cuántos papeles buscar. Fue como intentar encontrar una dirección en una ciudad sin mapa, solo preguntando a la gente al azar.
  • Los métodos con Gráficos (LPG y RDF): Ganaron por goleada.
    • LPG (El mapa de metro): Fue el campeón, especialmente en búsquedas y comparaciones. Logró un 93% de aciertos en búsquedas complejas.
    • RDF (El libro de recetas): También fue un ganador, con un 80% de aciertos en búsquedas.

4. La Analogía Final: El Detective vs. El GPS

  • El RAG tradicional es como un detective novato que revisa miles de archivos de papel buscando pistas. Si el caso es complejo, se pierde, se cansa y a veces inventa pistas para llenar los vacíos.
  • El Graph RAG (LPG/RDF) es como tener un GPS de alta tecnología conectado a una base de datos perfecta. No importa cuántos datos haya; el GPS sabe exactamente qué camino tomar para llegar a la respuesta sin perderse ni inventar nada.

Conclusión Simple

Si tienes datos complejos, estructurados y conectados (como los financieros), dejar de buscar en "textos planos" y empezar a usar "mapas conectados" (Gráficos) es la diferencia entre tener un asistente que adivina y tener un asistente que sabe exactamente dónde está la información.

El papel demuestra que, para el futuro de la inteligencia artificial en empresas, dibujar un mapa de las relaciones entre los datos es mucho más inteligente que simplemente leer los datos.