A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este trabajo propone una arquitectura de dos etapas que combina un modelo LLM (LLaMA-3.1-8B-Instruct) para la segmentación de cláusulas y un clasificador Transformer (Legal-Roberta-Large) para su clasificación en acuerdos de confidencialidad, logrando un alto rendimiento en la automatización de su análisis.

Ana Begnini, Matheus Vicente, Leonardo Souza

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Acuerdos de No Divulgación (NDA) son como esos contratos legales largos, aburridos y llenos de letra pequeña que las empresas firman para proteger sus secretos. Leerlos uno por uno es como intentar encontrar una aguja en un pajar, pero el pajar está hecho de paja de diferentes colores, tamaños y formas, y la aguja a veces se disfraza.

Los abogados humanos se cansan, se equivocan y tardan mucho. Para solucionar esto, los autores de este paper (Ana, Matheus y Leonardo) crearon un "Dúo Dinámico" de Inteligencia Artificial que funciona como un equipo de dos especialistas trabajando en cadena.

Aquí te explico cómo funciona este equipo, usando analogías sencillas:

1. El Problema: El "Muro de Texto"

Los contratos de confidencialidad son un caos. Unos tienen dos columnas, otros una; unos usan palabras muy técnicas, otros son más simples. Intentar analizarlos con reglas fijas (como un robot antiguo que solo busca la palabra "secreto") es inútil porque el lenguaje legal es muy flexible.

2. La Solución: El Equipo de Dos Pasos

El sistema propuesto es como una fábrica de procesamiento de documentos con dos estaciones de trabajo:

🛠️ Estación 1: El "Cortador de Pasto" (Segmentación)

  • El Modelo: Usan un modelo gigante llamado LLaMA-3.1 (piensa en él como un lector voraz y muy inteligente que puede leer libros enteros de una sentada).
  • La Tarea: Su trabajo es tomar un contrato completo de 50 páginas y decir: "¡Oye! Aquí empieza la cláusula sobre 'Confidencialidad', aquí termina la de 'Plazos' y aquí empieza la de 'Propiedad Intelectual'".
  • El Reto: Como los contratos no tienen un formato estándar, el modelo debe aprender a reconocer dónde termina una idea y empieza otra, aunque no haya un título grande que lo diga.
  • La Magia: Funciona tan bien que, si comparas lo que cortó la IA con lo que un abogado humano cortó, coinciden en un 95%. Es como si el robot pudiera leer la intención del autor y separar el texto perfectamente, sin perder ni una coma.

🏷️ Estación 2: El "Etiquetador de Archivos" (Clasificación)

  • El Modelo: Aquí entra un modelo más pequeño y especializado llamado Legal-Roberta (piénsalo como un archivista experto que ha leído miles de contratos legales).
  • La Tarea: Una vez que el "Cortador" separó el texto en trozos (cláusulas), este "Etiquetador" lee cada trozo y le pone una etiqueta.
    • ¿Habla de quién firma? -> Etiqueta: Partes.
    • ¿Habla de cuánto tiempo dura el secreto? -> Etiqueta: Duración.
    • ¿Habla de qué pasa si alguien rompe el acuerdo? -> Etiqueta: Responsabilidad.
  • El Reto: A veces una cláusula tiene dos o tres temas a la vez (es un problema de "etiquetas múltiples"), y algunas etiquetas son muy raras (pocos ejemplos para aprender).
  • El Resultado: El sistema acierta el 85% de las veces en general. Es como tener un archivista que, aunque a veces se confunde con los temas muy raros, es un genio con los temas comunes.

3. ¿Cómo midieron si funcionaba? (La Prueba de Fuego)

No solo dijeron "funciona". Usaron tres tipos de pruebas:

  1. Similitud de palabras (ROUGE): ¿Se parece el texto cortado por el robot al texto original? (¡Sí, casi idéntico!).
  2. Veracidad (Factual Correctness): ¿El robot inventó cosas o borró información importante? (¡No! Preservó los hechos al 95%).
  3. Significado (Similitud Semántica): ¿El robot entendió el sentido de la frase, aunque usara palabras diferentes? (¡Sí, al 98%!).

4. El Obstáculo: La "Escasez de Recetas"

El mayor problema que tuvieron fue conseguir datos. Las empresas no quieren regalar sus contratos secretos. Por eso, tuvieron que pedir ayuda a expertos legales para etiquetar manualmente 322 documentos. Fue como intentar aprender a cocinar el mejor pastel del mundo, pero solo tienes 322 recetas para practicar, y algunas de ellas (las raras) solo las tienes una vez.

5. ¿Qué sigue? (El Futuro)

El sistema actual ya hace un gran trabajo separando y etiquetando. Pero el sueño de los autores es crear un "Abogado Robot Completo".
Imagina que en el futuro, este sistema no solo etiqueta, sino que también dice: "Oye, esta cláusula de 'Duración' es peligrosa porque contradice la de 'Responsabilidad', deberías cambiarla".

En Resumen

Este paper nos dice que ya no necesitamos leer contratos legales palabra por palabra con dolor de cabeza. Podemos usar una IA que primero "corta" el pastel en porciones perfectas y luego le pone la etiqueta correcta a cada porción. Aunque todavía tiene que mejorar un poco con los temas muy raros, es un paso gigante para que los abogados trabajen más rápido y cometan menos errores.

¡Es como tener un asistente legal que nunca duerme, nunca se distrae y lee contratos a la velocidad de la luz! 🚀⚖️