ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los grandes modelos de lenguaje (como los que usan para chatear o escribir) son como niños genios que han leído millones de libros. Son increíbles, pero tienen un defecto: a veces, en lugar de pensar con lógica pura, se dejan llevar por lo que "sabe" que es verdad en el mundo real.

Este paper describe cómo un equipo de investigadores (ITLC) resolvió este problema para un concurso llamado SemEval-2026. Aquí te explico su solución con analogías sencillas:

1. El Problema: El "Niño Genio" que se deja engañar por la realidad

Imagina que le preguntas al niño genio:

Premisa 1: Todos los perros son animales.
Premisa 2: Ningún gato es un perro.
Conclusión: Por lo tanto, ningún gato es un animal.

Lógicamente, la conclusión es falsa (los gatos sí son animales). Pero si el niño genio sabe que "los gatos son animales", su cerebro se bloquea. Piensa: "¡Eso no puede ser verdad! Los gatos son animales, así que la conclusión debe ser cierta". Se deja llevar por su conocimiento del mundo (el "efecto del contenido") en lugar de seguir las reglas del juego de la lógica.

2. La Solución: Traducir todo a "Juego de Bloques"

El equipo de ITLC creó un método para que el niño genio deje de pensar en "perros" y "gatos" y empiece a pensar solo en bloques de colores.

Su proceso tiene tres pasos mágicos:

Paso A: La "Máquina de Traducción" (Normalización)

Antes de que el niño intente resolver el problema, pasan las frases por una máquina especial. Esta máquina hace dos cosas:

Traduce al inglés (si el texto está en español, francés, etc.) para que todos hablen el mismo idioma.
Cambia las palabras por letras.
- En lugar de "perros", pone A.
- En lugar de "gatos", pone B.
- En lugar de "animales", pone C.

Así, el problema deja de ser sobre animales y se convierte en un rompecabezas abstracto:

Premisa 1: Todos los A son C.
Premisa 2: Ningún B es A.
Conclusión: ¿Ningún B es C?

Al quitar las palabras reales, el niño ya no puede usar su conocimiento del mundo para confundirse. Solo ve letras.

Paso B: El "Arquitecto Estricto" (Análisis Determinista)

Una vez que tienen las letras, no le preguntan al niño genio "¿qué opinas?". En su lugar, usan un arquitecto de reglas estrictas (un programa informático simple).

Este arquitecto tiene un manual de instrucciones que dice: "Si tienes la forma X y la forma Y, la respuesta SIEMPRE es Z". No hay opiniones, no hay "creo que sí", no hay "suena bien". Es como un código de barras: si encaja, es válido; si no, es inválido.

Paso C: El "Filtro de Distracciones"

A veces, el problema tiene frases de relleno que no sirven (distracciones). El sistema sabe exactamente qué piezas del rompecabezas son necesarias para construir la conclusión y descarta el resto, como un chef que solo usa los ingredientes exactos para una receta y tira el resto a la basura.

3. ¿Por qué funciona tan bien?

Imagina que estás jugando al ajedrez.

El modelo normal (LLM): Juega pensando en la historia de la batalla. "¡Los caballos blancos siempre ganan!". Si la lógica dice que pierden, pero la historia dice que ganan, se confunde.
El método de ITLC: Quita las piezas de madera (perros, gatos) y las pone sobre un tablero de coordenadas matemáticas (A, B, C). Ahora, el juego es puramente matemático. No importa si los caballos son blancos o negros; importa si la jugada sigue las reglas del tablero.

4. Los Resultados

En el concurso, este método:

Fue top 5 en todas las categorías.
Logró cero errores en lógica pura (cuando las reglas se siguen al pie de la letra).
Funcionó igual de bien en inglés, español, chino, etc., porque primero traducía todo a un "idioma de bloques" universal.

En resumen

El equipo descubrió que para que la Inteligencia Artificial piense con lógica pura, hay que desnudar el problema. Hay que quitarle la "carne" (las palabras reales que nos emocionan o confunden) y dejarle solo los "huesos" (la estructura lógica).

Es como si, para resolver un problema de matemáticas, en lugar de usar palabras, dibujáramos solo líneas y ángulos. Así, nadie puede engañarse pensando en lo que significan las palabras, y solo se puede ver si la figura encaja o no. ¡Y eso es exactamente lo que hicieron!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: ITLC en SemEval-2026 Tarea 11

1. El Problema

Los Modelos de Lenguaje Grandes (LLMs) sufren de efectos de contenido en tareas de razonamiento, especialmente en contextos multilingües. Esto significa que los modelos tienden a basar sus conclusiones en el conocimiento del mundo real o en la plausibilidad semántica de los términos, en lugar de seguir estrictamente la estructura lógica formal.

Desafío principal: Disociar el contenido semántico del razonamiento formal.
Contexto: La Tarea 11 de SemEval-2026 evalúa la capacidad de los modelos para determinar la validez de silogismos categóricos y seleccionar las premisas relevantes, tanto en inglés como en múltiples idiomas.
Limitación de enfoques anteriores: Métodos como el fine-tuning pesado o las intervenciones a nivel de activación son complejos y no siempre garantizan la eliminación de sesgos en entornos multilingües.

2. Metodología Propuesta

El equipo ITLC propone un enfoque híbrido que combina la abstracción estructural explícita con un análisis sintáctico determinista. El sistema no depende del razonamiento "caja negra" del LLM para la lógica, sino que utiliza el LLM solo para la normalización y luego aplica reglas lógicas estrictas.

El flujo de trabajo consta de tres etapas principales:

A. Normalización (Abstracción Estructural)
El objetivo es transformar argumentos en lenguaje natural a una representación canónica de silogismo categórico, eliminando el ruido léxico.

Identificación de Términos: El modelo identifica tres categorías semánticas distintas: Término Menor ( $S$ , sujeto de la conclusión), Término Mayor ( $P$ , predicado de la conclusión) y Término Medio ( $M$ , aparece en ambas premisas pero no en la conclusión).
Mapeo Simbólico: Estos términos se mapean a constantes simbólicas ( $A, B, C$ ) basándose en su orden de aparición.
Normalización a Inglés (Pivote): Para idiomas no ingleses, se utiliza una estrategia de "Pivote en Inglés" (English Pivot Normalization - EPN). El LLM traduce solo los cuantificadores y verbos copulativos al inglés, manteniendo los términos sujetos y predicados en su idioma original. Esto estandariza la estructura lógica sin introducir "deriva léxica" que altere la identidad de los términos.

B. Análisis Sintáctico Determinista (Parsing)
Una vez normalizado el texto, se aplica un procedimiento de análisis determinista (no probabilístico):

Clasificación de Proposiciones: Cada oración se empareja con expresiones regulares para clasificarla en uno de los cuatro tipos de proposiciones catególicas:
- A: Universal Afirmativa (Todos los $X$ son $Y$ ).
- E: Universal Negativa (Ningún $X$ es $Y$ ).
- I: Particular Afirmativa (Algunos $X$ son $Y$ ).
- O: Particular Negativa (Algunos $X$ no son $Y$ ).
Determinación de Figura y Modo: Se calcula la posición del término medio en las premisas para determinar la "Figura" (1-4) y el "Modo" (secuencia de tipos de proposiciones).

C. Validación Formal

Consulta de Reglas: La validez se determina mediante una búsqueda en una tabla predefinida de modos válidos para cada figura (basada en la lógica aristotélica clásica).
Detección de Casos Triviales: Se incluyen reglas para identificar inferencias inmediatas válidas (como conversiones) o casos de validez vacía (principio de explosión).
Identificación de Premisas Relevantes: Si el silogismo es válido, el sistema identifica determinísticamente qué dos premisas conectan $S$ y $P$ a través de $M$ .

3. Contribuciones Clave

Reducción de Sesgos de Contenido: Al abstraer el lenguaje natural a una estructura lógica simbólica antes de la evaluación, el método elimina casi por completo la influencia del conocimiento del mundo real en la decisión de validez.
Enfoque Multilingüe Robusto: La estrategia de normalización con pivote en inglés permite que un sistema basado en reglas (que funciona perfectamente en inglés) se extienda a múltiples idiomas sin necesidad de entrenar modelos específicos para cada lengua.
Interpretabilidad y Simplicidad: A diferencia de los métodos de fine-tuning o ajuste de activaciones, este enfoque es transparente, determinista y no requiere gradientes ni entrenamiento pesado.
Rendimiento Superior: Logra un equilibrio óptimo entre la abstracción necesaria para la lógica y la interpretabilidad del modelo, superando a representaciones simbólicas puras (como FOL) que resultan demasiado complejas para el parsing.

4. Resultados

El método fue evaluado en los cuatro subtemas de SemEval-2026 Task 11:

Ranking: Se ubicó en el Top-5 en todos los subtemas.
Precisión (Validez):
- Inglés: Logró 100% de precisión con 0.0 de sesgo (Content Effect Bias). El enfoque basado en LLM puro obtuvo un 98.43% de precisión pero con un sesgo significativo.
- Multilingüe: Con la estrategia EPN + Normalización + Parsing, alcanzó 100% de precisión y 0.0 de sesgo. Sin la traducción de pivote, la precisión cayó y el sesgo aumentó, demostrando la importancia de la normalización lingüística.
Premisas Relevantes: El método determinista superó a los baselines de LLM puro en la identificación de premisas relevantes en entornos multilingües (F1 de 90.10 vs 87.76), evitando la distracción por premisas irrelevantes semánticamente plausibles.
Reducción de Sesgo: Se observó una reducción drástica en el sesgo de contenido (de ~7.29 a ~3.00 en tareas multilingües de relevancia), confirmando que la estructura formal mitiga la interferencia semántica.

5. Significado y Conclusión

Este trabajo demuestra que para el razonamiento lógico formal, la abstracción estructural es superior al razonamiento end-to-end de los LLMs.

Alternativa Escalable: Ofrece una alternativa viable y más simple a las modificaciones arquitectónicas complejas o al fine-tuning masivo para mitigar sesgos en el razonamiento.
Generalización: La estrategia de "traducir primero la lógica, luego aplicar reglas" es efectiva para superar las limitaciones de los LLMs en idiomas no ingleses y en la interpretación de cuantificadores complejos.
Futuro: Sugiere que los sistemas de razonamiento robustos deben integrar componentes simbólicos deterministas que actúen como "guardianes" de la lógica, separando la estructura formal del contenido semántico.

En resumen, el equipo ITLC ha demostrado que transformar silogismos a una representación canónica y aplicar un análisis sintáctico determinista es una estrategia altamente efectiva para lograr razonamiento lógico libre de sesgos en modelos de lenguaje, tanto en inglés como en contextos multilingües.