Transducing Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina extremadamente talentoso (el Modelo de Lenguaje) que es famoso por cocinar platos deliciosos, pero tiene una regla estricta: solo puede escribir sus recetas usando códigos de barras en lugar de palabras reales.

Por ejemplo, si quieres que el chef te diga "Hola", él no escribe "Hola". En su lugar, escribe una secuencia extraña como H | ello o Ho | la, dependiendo de cómo dividió la palabra en su mente (esto se llama "tokenización").

El problema es que tú, el cliente, no quieres los códigos de barras; quieres la palabra completa "Hola", o quizás quieres que te diga la receta en letras minúsculas, o incluso que te traduzca una secuencia de ADN a proteínas.

Antes de este trabajo, la gente tenía que:

Entrenar a un nuevo chef desde cero para que hablara en "letras minúsculas" (muy caro y lento).
O intentar adivinar cómo convertir los códigos de barras a palabras después de que el chef ya cocinó (y a veces la probabilidad de que la palabra salga bien se pierde en el intento).

La Solución: El "Traductor Mágico" (Transductores)

Este paper presenta una idea brillante: no necesitas entrenar a un nuevo chef. En su lugar, le pones al chef un traductor automático (llamado Transductor de Estado Finito o FST) justo en la salida de su cocina.

Imagina que el chef sigue escribiendo sus códigos de barras extraños, pero el traductor los captura al vuelo y los transforma instantáneamente en lo que tú necesitas:

Si el chef escribe H | ello, el traductor lo convierte en hola.
Si el chef escribe una secuencia de ADN (ATG...), el traductor la convierte en una proteína (Met...).

¿Cómo funciona la magia? (La analogía del laberinto)

El desafío real no es solo traducir la palabra, sino calcular la probabilidad.
El chef tiene muchas formas de escribir "hola" en códigos de barras. Quizás H | ello es muy probable, pero He | llo es menos probable. Si simplemente traduces el código más probable, podrías estar ignorando otras formas de escribirlo que, en conjunto, son muy probables.

Los autores crearon un algoritmo de búsqueda que actúa como un explorador en un laberinto:

Mira todos los caminos posibles que el chef podría haber tomado para llegar a "hola".
Agrupa esos caminos en dos categorías:
- El Cuotiente (La parte segura): Caminos donde, sin importar lo que el chef escriba después, la palabra siempre será "hola". Aquí es fácil calcular la probabilidad.
- El Resto (La parte arriesgada): Caminos donde el chef podría escribir algo que arruine la palabra (por ejemplo, si escribe una letra extra que cambia el significado).
Suma todas las probabilidades de esos caminos para darte la probabilidad exacta de que el chef diga "hola", sin tener que reentrenar al chef ni cambiar su cerebro.

¿Por qué es importante?

Ahorro de dinero y tiempo: Puedes tomar un modelo de IA gigante (como GPT-2 o Llama) que ya existe y hacerlo útil para tareas nuevas (como biología o lingüística) sin volver a entrenarlo. Es como darle unas gafas nuevas a alguien que ya sabe leer, en lugar de enseñarle a leer de nuevo.
Precisión: Asegura que la probabilidad de la palabra final sea correcta, sumando todas las formas en que el modelo original podría haberla generado.
Versatilidad: Funciona para convertir texto a bytes, palabras, o incluso para biólogos que quieren pasar de ADN a proteínas.

En resumen

El paper nos dice: "No necesitas cambiar al artista para cambiar el estilo de la obra. Solo necesitas un buen marco (transductor) que traduzca su trabajo al formato que el mundo necesita, calculando matemáticamente la probabilidad de que el resultado sea perfecto."

Es una herramienta que hace que los modelos de lenguaje actuales sean mucho más flexibles y útiles para tareas específicas, sin tener que gastar una fortuna en reentrenarlos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Transducing Language Models

1. El Problema: La Desincronización de Cadenas (String Mismatch)

Los modelos de lenguaje modernos (LMs) definen distribuciones de probabilidad sobre cadenas de tokens (generalmente subpalabras como BPE o Unigram). Sin embargo, muchas aplicaciones de nivel inferior requieren formatos de salida diferentes que no coinciden con estos tokens nativos.

Ejemplos: Un modelo que genera tokens BPE no produce directamente predicciones a nivel de palabra o carácter; un modelo de ADN genera secuencias de nucleobases, pero las aplicaciones biológicas a menudo requieren secuencias de aminoácidos.
Limitación actual: Las soluciones de ingeniería actuales suelen usar post-procesamiento ad hoc (como normalización o mapeo simple). Aunque el muestreo (sampling) es sencillo, operaciones críticas como calcular la probabilidad de una cadena transformada o condicionar la generación en una salida transformada se vuelven intratables. Esto se debe a que múltiples secuencias de tokens fuente pueden mapearse a una misma cadena objetivo, y sumar sus probabilidades requiere explorar un espacio exponencial.

2. Metodología: Modelos de Lenguaje Transducidos

Los autores proponen tratar las transformaciones de cadena a cadena como un componente de primer nivel en la tubería de modelado de lenguaje, formalizando el concepto de Modelo de Lenguaje Transducido.

Fundamento Teórico:
- Se define un nuevo modelo de lenguaje $p_Y$ sobre cadenas objetivo $Y$ aplicando una transformación determinista $f$ (codificada por un Transductor de Estado Finito - FST) a un modelo fuente $p_X$ sobre cadenas fuente $X$ .
- La probabilidad de una cadena objetivo $y$ se calcula sumando las probabilidades de todas las cadenas fuente $x$ que se mapean a $y$ : $p_Y(y) = \sum_{x \in f^{-1}(y)} p_X(x)$ .
- Para la generación autoregresiva, se necesita calcular la probabilidad del prefijo $\vec{p}_Y(y)$ , lo que implica sumar sobre el pre-cubrimiento (precover) $P(y) = \{x \mid y \preceq f(x)\}$ .
Descomposición del Pre-cubrimiento:
El núcleo de la metodología es descomponer el conjunto infinito del pre-cubrimiento en dos partes manejables:
1. Cociente (Quotient, $Q(y)$ ): Un conjunto de cadenas fuente que son "cilindros". Si una cadena $x$ está en $Q(y)$ , entonces todas sus extensiones también se mapean a cadenas que comienzan con $y$ . Esto permite sumar la probabilidad del prefijo de $x$ en el modelo fuente ( $\vec{p}_X(x)$ ) en lugar de sumar infinitas extensiones.
2. Residuo (Remainder, $R(y)$ ): Cadenas fuente que se mapean a $y$ pero cuyas extensiones no necesariamente lo hacen. Para estas, se debe sumar la probabilidad de la cadena completa ( $p_X(x)$ ).
- Fórmula clave: $\vec{p}_Y(y) = \sum_{x \in Q(y)} \vec{p}_X(x) + \sum_{x \in R(y)} p_X(x)$ .
Algoritmos:
- Se presenta un algoritmo exacto basado en búsqueda en anchura (BFS) sobre el espacio de estados del transductor para identificar $Q(y)$ y $R(y)$ .
- Se introducen comprobaciones de estado (cylinder, member, live) utilizando máquinas de estados deterministas (DFA) derivadas del transductor.
- Optimizaciones: Se implementan atajos como la "universalidad de proyección de entrada" (IP-universality) para evitar BFS costosos cuando un estado garantiza que cualquier entrada futura producirá salida.
- Aproximación: Dado que la descomposición puede ser grande, se utiliza un podado por masa de probabilidad (probability mass pruning). Se descartan candidatos de bajo peso probabilístico, garantizando que el error sea acotado por un umbral $\tau$ .

3. Contribuciones Clave

Marco General: Formalización de modelos de lenguaje derivados de transformaciones deterministas mediante FSTs, permitiendo interfaces autoregresivas estándar (distribuciones de siguiente símbolo y probabilidades de prefijo) sin reentrenar el modelo.
Algoritmos Eficientes: Desarrollo de algoritmos exactos y aproximados para realizar la marginalización sobre el espacio de tokens fuente, utilizando descomposición de prefijos y técnicas de transductores.
Condiciones de Finitud: Identificación teórica de condiciones suficientes (como la monotonicidad de prefijos estricta y la "seguridad" de los estados) para garantizar que la descomposición sea finita y computable exactamente.
Validación Empírica: Implementación y prueba en tres dominios distintos:
- Tokens a Bytes (BPE $\to$ Caracteres).
- Tokens a Límites Ortográficos de Palabras (BPE $\to$ PTB Tokenizer).
- ADN a Aminoácidos (Nucleótidos $\to$ Proteínas).

4. Resultados Experimentales

Los experimentos se realizaron utilizando modelos preentrenados como GPT-2 Large, LLaMA 3 (1B y 8B), Phi-4 y un modelo de ADN personalizado.

Precisión vs. Velocidad:
- Se midió la divergencia Jensen-Shannon (JSD) entre la distribución transducida aproximada y una referencia exacta.
- Se encontró que umbrales de poda moderados (ej. $\tau = 10^{-3}$ ) producen una JSD muy baja (cercana a cero) con un costo computacional significativamente menor.
- En la conversión de tokens a bytes, el método alcanza una precisión comparable a métodos especializados anteriores (como Vieira et al., 2025a) pero con un marco más general.
Rendimiento:
- La velocidad de inferencia varía según la complejidad del transductor. Para transductores con estados "IP-universales" (como tokens a bytes), la velocidad es alta (decenas de bytes/segundo). Para transductores complejos (como PTB o ADN), la velocidad disminuye debido a la necesidad de explorar más estados de residuo, pero sigue siendo viable.
- La poda permite controlar el equilibrio entre precisión y velocidad de manera efectiva.
Adaptabilidad: El enfoque demuestra que es posible adaptar modelos preentrenados a requisitos de salida específicos (como generar proteínas o palabras completas) sin necesidad de reentrenamiento costoso.

5. Significado e Impacto

Reutilización de Modelos: Permite tomar modelos de lenguaje potentes entrenados en subpalabras y utilizarlos directamente en dominios que requieren unidades diferentes (bytes, caracteres, aminoácidos) sin perder la capacidad de inferencia probabilística.
Interpretabilidad y Control: Facilita tareas de lingüística computacional y psicolingüística donde se necesitan estimaciones precisas de "sorpresa" (surprisal) a nivel de palabra o carácter, eliminando el ruido introducido por la tokenización BPE.
Biología Computacional: Ofrece una vía rigurosa para aplicar LMs a secuencias biológicas (ADN/Proteínas) respetando las reglas de traducción genética, algo que los modelos nativos de tokens no hacen correctamente por sí solos.
Marco Unificado: Proporciona una base teórica sólida para futuras investigaciones sobre la adaptación de modelos de lenguaje mediante transformaciones de estado finito, abriendo la puerta a la normalización de distribuciones y la generación guiada en espacios de unidades complejos.

En resumen, el artículo resuelve el problema fundamental de la incompatibilidad entre las unidades de tokenización de los LMs modernos y las unidades requeridas por las aplicaciones, ofreciendo una solución matemáticamente rigurosa, computacionalmente eficiente y libre de reentrenamiento.

Transducing Language Models

La Solución: El "Traductor Mágico" (Transductores)

¿Cómo funciona la magia? (La analogía del laberinto)

¿Por qué es importante?

En resumen

Resumen Técnico: Transducing Language Models

1. El Problema: La Desincronización de Cadenas (String Mismatch)

2. Metodología: Modelos de Lenguaje Transducidos

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models