LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un abogado o un juez buscando un caso antiguo que te ayude a resolver un problema legal actual. Tienes que buscar entre millones de documentos, como si fueras a encontrar una aguja en un pajar gigante. Tradicionalmente, las computadoras buscaban palabras clave (como si buscaran la palabra "robo" en todos los textos), pero esto a menudo falla porque dos casos pueden usar palabras diferentes pero tener la misma lógica legal.

Los investigadores de la Universidad de Queensland han creado algo llamado LEXA. Para entenderlo, vamos a usar una analogía sencilla: La diferencia entre leer una lista de ingredientes y entender la receta completa.

1. El Problema: Las herramientas antiguas

Las herramientas anteriores (como los modelos de lenguaje o los buscadores simples) leían los casos legales como si fueran un bloque de texto plano.

La analogía: Imagina que intentas entender una receta de cocina solo leyendo una lista de ingredientes sueltos: "huevo, harina, azúcar". Sabes qué hay, pero no sabes cómo se relacionan entre sí. ¿El huevo va con la harina? ¿La azúcar es para el glaseado? Sin esa estructura, es difícil entender la "sabor" completo del caso.
El fallo: Las herramientas viejas ignoraban la estructura: quién es el demandante, quién es el demandado, qué evidencia conecta con qué crimen.

2. La Solución Anterior (CaseGNN): Un mapa, pero incompleto

El trabajo anterior de estos autores, llamado CaseGNN, intentó arreglar esto creando un mapa (un gráfico) donde los personajes (nodos) y sus relaciones (bordes) estaban conectados.

La analogía: Ahora tienes un mapa de la cocina donde el "huevo" está conectado a la "mezcla" y la "harina" a la "masa". Es mucho mejor.
El problema: Pero este mapa tenía tres defectos:
1. Solo actualizaba a los personajes, ignorando las conexiones (las líneas del mapa se quedaban estáticas).
2. Le faltaban "ejercicios" para aprender (poca información de entrenamiento).
3. Los personajes no tenían mucha "personalidad" o contexto (no entendían el matiz legal).

3. La Innovación: LEXA (El Super-Mapa Inteligente)

LEXA es la versión mejorada que soluciona esos tres problemas usando tres trucos mágicos:

A. El "Actualizador de Conexiones" (EUGAT)

En lugar de solo actualizar a los personajes del mapa, LEXA también actualiza las conexiones entre ellos.

La analogía: Imagina que en tu mapa de cocina, las líneas que conectan los ingredientes también tienen "inteligencia". Si ves que el "huevo" se usa mucho con la "harina" en recetas de pasteles, la línea que los une se vuelve más fuerte y brillante. LEXA entiende que la relación entre dos cosas es tan importante como las cosas mismas. Esto le permite ver patrones legales complejos que otros ignoran.

B. El "Entrenador de Ejercicios" (Aprendizaje Contrastivo)

Como hay pocos casos legales etiquetados para enseñar a la computadora, LEXA inventa sus propios ejercicios.

La analogía: Imagina que estás aprendiendo a distinguir entre un perro y un lobo. Si solo te muestran un perro y un lobo, es fácil. Pero LEXA te muestra un perro, un lobo y un "lobo disfrazado de perro" (un caso que parece muy similar pero no lo es). Al obligar a la computadora a distinguir entre casos muy parecidos, se vuelve un experto en encontrar las diferencias sutiles que importan en la ley.

C. El "Traductor Experto" (LLMs Contextualizados)

LEXA usa un modelo de lenguaje gigante (como un experto legal muy leído) para escribir las descripciones de los personajes y las conexiones del mapa.

La analogía: En lugar de poner una etiqueta simple que diga "Hombre", el modelo experto escribe: "El demandante, un ciudadano canadiense que firmó un contrato bajo coacción". Esto le da al mapa un contexto rico. La computadora no solo ve "hombre", entiende la historia legal detrás del "hombre".

4. El Resultado: ¿Por qué es genial?

Cuando probaron LEXA en competiciones reales de búsqueda legal (usando datos de tribunales canadienses), ocurrió lo siguiente:

Superó a los antiguos: Fue mucho mejor que los buscadores de palabras clave y que los modelos de lenguaje puros.
Superó a su propia versión anterior: Mejoró significativamente a CaseGNN.
Es el nuevo campeón: Logró los mejores resultados en la historia de estas pruebas.

En resumen

LEXA es como pasar de tener una lista de nombres telefónicos desordenada a tener un organizador social inteligente. No solo sabe quién es quién, sino que entiende cómo se relacionan las personas, quién conoce a quién, y tiene la capacidad de distinguir entre un amigo cercano y un extraño que se parece mucho a él.

Para los abogados, esto significa que pueden encontrar el precedente legal perfecto en segundos, ahorrando tiempo y dinero, y asegurando que las decisiones judiciales se basen en la historia completa y estructurada de la ley, no solo en palabras sueltas.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings" en español.

1. El Problema

La Recuperación de Casos Legales (LCR) es una tarea especializada de recuperación de información que busca identificar casos relevantes (precedentes) dados un caso de consulta. Aunque los métodos existentes se basan en modelos léxicos (como BM25) o modelos de lenguaje (LMs), presentan limitaciones críticas:

Ignorancia de la estructura: Los modelos basados en texto plano no capturan la información estructural inherente a los documentos legales (relaciones entre partes, actividades criminales, evidencia).
Subutilización de información de bordes: Trabajos previos como CaseGNN utilizan grafos, pero solo actualizan las características de los nodos, dejando fijas las características de los bordes (relaciones), lo que desperdicia información relacional rica.
Señales de entrenamiento insuficientes: La escasez de datos legales etiquetados (debido al alto costo y la necesidad de expertos) limita la capacidad de aprendizaje de los modelos.
Falta de contexto semántico: Las características de nodos y bordes en métodos anteriores carecen de la comprensión contextual profunda que ofrecen los Modelos de Lenguaje Grandes (LLMs) modernos.

2. Metodología: El Marco LEXA

El modelo LEXA es una extensión avanzada de CaseGNN que integra tres componentes principales para superar las limitaciones anteriores:

A. Codificación Contextualizada con LLMs (LEXA-8B)

Se utiliza un modelo de incrustación de texto basado en LLM (específicamente Qwen3-Embedding-8B) que ha sido afinado (fine-tuned) con aprendizaje contrastivo supervisado.
Se emplean plantillas de prompts para guiar al LLM en la extracción de hechos legales e issues (problemas legales) de los casos.
Estos prompts se utilizan para generar las características iniciales (embeddings) tanto para los nodos (entidades) como para los bordes (relaciones) del grafo, capturando semántica legal contextualizada.

B. Capa de Atención de Grafos Actualizada por Bordes (EUGAT)

Se propone una nueva capa de red neuronal de grafos llamada EUGAT (Edge-updated Graph Attention Layer).
A diferencia de los GNNs tradicionales que solo actualizan nodos, EUGAT actualiza simultáneamente las características de los nodos y los bordes en cada capa.
Esto permite que la información relacional evolucione dinámicamente durante el proceso de paso de mensajes, aprovechando al máximo la estructura del grafo de casos legales.

C. Aprendizaje Contrastivo de Grafos con Aumentación (GCL)

Para mitigar la falta de datos etiquetados, se introduce un objetivo de aprendizaje contrastivo que utiliza aumentación de grafos.
Se generan vistas aumentadas de los grafos mediante estrategias como eliminación de bordes (edge dropping) y enmascaramiento de características (feature masking).
La función de pérdida contrastiva entrena al modelo para acercar las representaciones de casos relevantes (positivos) y sus versiones aumentadas, mientras aleja a los casos no relevantes (negativos fáciles y difíciles).

3. Contribuciones Clave

Marco LEXA: Un nuevo enfoque que combina grafos de casos atribuidos con texto, LLMs contextualizados y aprendizaje contrastivo.
Capa EUGAT: Un mecanismo innovador que actualiza dinámicamente tanto nodos como bordes, mejorando la representación de las relaciones legales.
Incorporación de LLMs: Uso de un modelo de incrustación de LLM afinado (LEXA-8B) para inicializar características ricas en semántica legal contextual.
Señales de Entrenamiento Mejoradas: Uso de aumentación de grafos y muestreo de negativos difíciles para superar la escasez de datos etiquetados.
Rendimiento SOTA: Validación empírica que demuestra un rendimiento superior a los métodos actuales en tareas de recuperación legal.

4. Resultados Experimentales

Los experimentos se realizaron en dos conjuntos de datos de referencia: COLIEE 2022 y COLIEE 2023.

Rendimiento General: LEXA superó consistentemente a todos los baselines, incluyendo modelos léxicos (BM25), modelos de lenguaje (LEGAL-BERT, SAILER), y métodos basados en grafos anteriores (CaseGNN, CaseLink).
- En COLIEE 2022, LEXA logró un NDCG@5 de 79.3%, superando a CaseLink (70.3%) y a los mejores modelos de LLM (aprox. 38%).
- En COLIEE 2023, LEXA alcanzó un NDCG@5 de 52.6%, nuevamente superando a CaseLink (49.8%) y a los métodos basados en texto.
Estudio de Ablación:
- La eliminación de la capa EUGAT o del aprendizaje contrastivo (GCL) resultó en caídas significativas de rendimiento.
- La eliminación del nodo global virtual causó un colapso casi total del rendimiento, demostrando la importancia de la propagación de información global.
- El uso de prompts mejoró la extracción de características en comparación con la codificación sin prompts.
Análisis de Sensibilidad: Se identificó que una temperatura ( $\tau$ ) de 0.1 y un número bajo de negativos fáciles (1) ofrecen el mejor equilibrio para el aprendizaje contrastivo. Además, la poda de bordes (reducción de la densidad del grafo) degradó el rendimiento, confirmando que la conectividad completa es crucial.

5. Significado e Impacto

El trabajo LEXA representa un avance significativo en la recuperación de casos legales al demostrar que:

La estructura relacional de los documentos legales es tan importante como el contenido textual y debe ser modelada explícitamente mediante grafos.
La actualización dinámica de las relaciones (bordes) en los grafos es esencial para capturar la complejidad de las interacciones legales.
La combinación de LLMs contextualizados con aprendizaje contrastivo en grafos es una estrategia poderosa para superar la escasez de datos etiquetados en dominios especializados como el derecho.

En resumen, LEXA establece un nuevo estado del arte (SOTA) en la recuperación de casos legales, ofreciendo una herramienta más precisa y robusta para jueces, abogados y sistemas de asistencia legal.