Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñar a un robot (una Inteligencia Artificial) a resolver problemas de física, como los que se ven en los exámenes más difíciles de la universidad. El problema es que, para aprender bien, el robot necesita millones de ejercicios resueltos paso a paso. Pero conseguir esos ejercicios es como buscar agujas en un pajar: son escasos, y si intentas crearlos con un simple chatbot, este suele "alucinar" (inventar cosas que no tienen sentido) o cometer errores de cálculo.

Los autores de este paper, Aditya, Sriram y Dhruv, han creado una solución genial llamada IPG (Generador Infinito de Problemas). Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: El Chef que se inventa recetas

Normalmente, si le pides a una IA que cree un problema de física, actúa como un chef que nunca ha cocinado: intenta imitar el texto de una receta, pero a menudo olvida los ingredientes reales o mezcla cosas que no van juntas (como poner chocolate en una sopa de pescado). El resultado suena bien, pero si intentas cocinarlo (resolverlo), explota.

2. La Solución: El Arquitecto con Planos Digitales

El IPG no es un chef que improvisa; es un arquitecto riguroso. En lugar de escribir el problema como texto libre, utiliza una técnica llamada "Fórmula como Código".

La Analogía: Imagina que las leyes de la física (como la gravedad o la fricción) no son palabras en un libro, sino bloques de LEGO digitales que ya han sido probados y funcionan perfectamente.
Cómo funciona: El sistema toma un problema original hecho por un experto (una "semilla") y le dice a la IA: "Usa estos bloques de LEGO específicos para construir una nueva historia".
- En lugar de decir "un coche va rápido", la IA construye el problema usando funciones de Python (código informático) que garantizan que la física es correcta.
- Si la IA intenta poner un bloque que no encaja, el sistema lo detecta inmediatamente y lo tira a la basura antes de que se convierta en un problema.

3. El Proceso: La Fábrica de Problemas

El sistema funciona en tres pasos, como una línea de montaje:

Análisis (El Detective): La IA lee el problema original y extrae las reglas del juego (qué fórmulas se usan, qué valores son posibles).
Generación (El Artista Creativo): La IA cambia la historia. Si el problema original era sobre un tren, ahora puede ser sobre un cohete o un patinador, pero manteniendo la misma estructura matemática. Aquí es donde crea miles de variaciones.
Verificación (El Inspector de Calidad): ¡Esta es la parte mágica! Antes de guardar el problema, el sistema ejecuta un programa de computadora para resolverlo automáticamente.
- Si el código da un resultado imposible (como un tiempo negativo o una masa infinita), el problema se descarta.
- Solo se guardan los problemas que la computadora puede resolver con éxito.

4. El Hallazgo Sorprendente: El "Plano de Complejidad"

Los investigadores descubrieron algo fascinante: la longitud del código de la solución es una medida perfecta de la dificultad del problema.

La Analogía: Imagina que quieres medir qué tan difícil es un rompecabezas. En lugar de adivinar, simplemente cuentas cuántas piezas tiene.
El descubrimiento: Encontraron que si un problema requiere 3 fórmulas de física, el código para resolverlo tendrá una longitud específica. Si requiere 6 fórmulas, el código será proporcionalmente más largo.
Por qué importa: Esto les permite crear "curriculums" (planes de estudio) automáticos. Pueden pedirle al sistema: "Dame 100 problemas fáciles (código corto)" y luego "Dame 100 problemas muy difíciles (código largo)", sin necesidad de que un humano los revise uno por uno.

5. El Resultado: Una Biblioteca Infinita

Con solo 165 problemas originales (las semillas), lograron generar 1,335 problemas nuevos de alta calidad, todos verificados por código.

Crearon un conjunto de datos llamado ClassicalMechanicsV1.
Estos problemas son tan buenos que sirven tanto para entrenar a la IA (para que aprenda a razonar) como para ponerla a prueba (para ver si realmente entiende la física y no solo está adivinando).

En Resumen

Este paper presenta una forma inteligente de crear infinitos ejercicios de física. En lugar de confiar en que la IA "sepa" física (lo cual a menudo falla), les dan a la IA una caja de herramientas de código pre-validado y la obligan a construir problemas que deben funcionar matemáticamente.

Es como pasar de pedirle a un niño que dibuje un puente (que podría caer) a darle un kit de construcción de ingeniería donde, si sigue las instrucciones, el puente siempre se sostiene. Esto permite crear datos de entrenamiento masivos, precisos y libres de errores para la próxima generación de IAs inteligentes.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Infinite Problem Generator (IPG)

1. El Problema: Escasez de Datos Verificables para Razonamiento

El entrenamiento de Modelos de Lenguaje Grandes (LLMs) en dominios de razonamiento complejo, como la física universitaria, se ve frenado por la falta de datos de alta calidad y verificables.

Limitaciones actuales: La augmentación de texto estándar a menudo introduce "alucinaciones" (errores matemáticos o lógicos). Los benchmarks estáticos (como JEEBench o UGPhysics) son útiles para la evaluación, pero carecen de las trazas de razonamiento ejecutables necesarias para el fine-tuning (ajuste fino) de modelos.
Brecha: Existe una desconexión entre los conjuntos de datos de prueba y los recursos de entrenamiento que requieren cadenas de razonamiento paso a paso, rigurosas y matemáticamente consistentes.

2. Metodología: El Marco de Trabajo Agente IPG

Los autores proponen el Generador Infinito de Problemas (IPG), un marco de trabajo basado en agentes que sintetiza problemas de física garantizando su solvabilidad mediante un paradigma "Fórmula como Código" (Formula-as-Code).

Principios Fundamentales:

Fórmula como Código: En lugar de tratar las ecuaciones físicas como tokens de texto, IPG las codifica como funciones de Python ejecutables. Esto transforma la generación de problemas en un proceso de programación estructurada en lugar de generación de texto probabilístico.
Verificación Ejecutable (Program-of-Thought): Cada problema generado debe ir acompañado de un script de Python que resuelva el problema. La ejecución de este código actúa como un filtro de verificación riguroso.

Flujo de Trabajo (Pipeline de 3 Fases):

Fase I: Análisis y Expansión de Contexto:
- Se parte de un "Par Semilla" ( $Q_{seed}, A_{seed}$ ) extraído de libros de texto expertos.
- Se extraen principios físicos subyacentes y se mapean a un Diccionario de Capítulos para identificar fórmulas ejecutables relevantes.
- Se construye un Diccionario de Variables con rangos físicos válidos (ej. masa > 0, coeficiente de fricción $\in [0, 1]$ ) para evitar instancias físicamente imposibles.
Fase II: Generación de Problemas Constrained:
- El agente genera variaciones narrativas (cambiando el contexto, ej. de una polea a un rodillo) manteniendo la lógica física invariante.
- Se selecciona un subconjunto de 3 a 5 fórmulas ejecutables para garantizar razonamiento multi-paso.
- Se asigna una "Firma de Problema" (conjunto de fórmulas + variable objetivo) para detectar y rechazar duplicados.
Fase III: Generación de Solución y Verificación:
- El agente genera el código Python que resuelve el problema utilizando solo las funciones de la biblioteca de axiomas validados.
- Criterios de Aceptación: El código debe ser sintácticamente válido, producir un resultado numérico finito (no NaN/Inf) y cumplir con la "Sanidad Física" (ej. tiempos positivos).
- Si falla, el sistema entra en un bucle de reintento con corrección basada en el rastro de error.

3. Contribuciones Clave

Marco de Verificación Agente (IPG): Un pipeline que desacopla la generación narrativa del razonamiento numérico, mitigando significativamente las alucinaciones matemáticas mediante la ejecución de código.
Dataset ClassicalMechanicsV1: Un corpus de 1,335 problemas de mecánica clásica (expandidos a partir de 165 semillas) con trayectorias de solución ejecutables y corrección numérica verificada.
El "Plan de Complejidad" (Complexity Blueprint): El descubrimiento de una correlación lineal fuerte ( $R^2 \approx 0.95$ ) entre el número de fórmulas físicas integradas y la longitud del código de solución. Esto permite controlar la dificultad del problema de manera precisa y sin necesidad de anotación humana, utilizando la longitud del código como métrica proxy.

4. Resultados y Análisis

Diversidad Estructural: El dataset cubre 102 fórmulas únicas con una complejidad promedio de 3.05 fórmulas por problema. Se observa una mezcla de dominios efectiva (ej. combinar Cinemática con Dinámica de Cuerpos Rígidos), rompiendo las barreras de los capítulos de los libros de texto.
Tasa de Éxito: El paradigma "Generar-Verificar" logró una tasa de validación del 99.85%. Solo 2 problemas en el conjunto final fueron inestables numéricamente.
Análisis de Fallos:
- En problemas de baja complejidad (0-1 fórmulas), los errores suelen ser triviales o de definición.
- En alta complejidad (4-6 fórmulas), el principal fallo es el "Desajuste de Firma" (el agente deriva valores intermedios correctamente pero falla al encadenarlos a la variable final), lo que expone limitaciones actuales de los LLMs en el seguimiento de contextos de variables a largo plazo.
Validación Externa: Al evaluar el modelo Qwen3-14B en este dataset, se obtuvo un rendimiento inferior al de JEEBench, lo que sugiere que los problemas generados por IPG capturan con éxito un nivel de complejidad de razonamiento que es difícil de "engañar" mediante selección múltiple o patrones superficiales.

5. Significado e Impacto

Escalabilidad Controlada: IPG demuestra que es posible generar datos de entrenamiento masivos y de alta calidad para dominios científicos sin depender de la intuición humana para cada ejemplo, utilizando la complejidad del código como regulador.
Rigor Científico: Al obligar a que cada problema tenga una solución ejecutable, el dataset elimina la ambigüedad y los errores factuales comunes en los datos sintéticos generados puramente por texto.
Futuro: Este enfoque sienta las bases para la creación de currículos adaptativos en IA, donde la dificultad se puede escalar matemáticamente, y abre la puerta a la extensión de este método a otros dominios (electromagnetismo, óptica) y a la integración de modalidades visuales (diagramas generados por código).

En resumen, el trabajo presenta un avance metodológico crucial al transformar la generación de datos de razonamiento de un proceso de "probabilidad textual" a uno de "ejecución lógica verificable", resolviendo el cuello de botella de la calidad de los datos para el entrenamiento de LLMs en ciencias.

Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

1. El Problema: El Chef que se inventa recetas

2. La Solución: El Arquitecto con Planos Digitales

3. El Proceso: La Fábrica de Problemas

4. El Hallazgo Sorprendente: El "Plano de Complejidad"

5. El Resultado: Una Biblioteca Infinita

En Resumen

Resumen Técnico: Infinite Problem Generator (IPG)

1. El Problema: Escasez de Datos Verificables para Razonamiento

2. Metodología: El Marco de Trabajo Agente IPG

3. Contribuciones Clave

4. Resultados y Análisis

5. Significado e Impacto

Más como este

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature