IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing, Shark Liu, Yizhi Li, Jiajun Wu, Cening Liu, X. Ma, Yuyang Song, Siwei Wu, Yuwen Li, L. Liao, T. Zheng, Ziling Huang, Zelong Huang, Che Liu, Yan

Publicado 2026-03-18

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el desarrollo de software es como construir una ciudad gigante. Hasta ahora, la mayoría de los "arquitectos de IA" (los modelos de lenguaje) solo habían estudiado planos estáticos: les mostraban un edificio terminado y les decían "copia esto". Pero en el mundo real, los edificios se construyen ladrillo a ladrillo, con correcciones, cambios de opinión y revisiones constantes.

El informe que acabas de leer presenta a IQuest-Coder-V1, una nueva familia de arquitectos de IA diseñados no solo para copiar planos, sino para entender el proceso de construcción.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: El Arquitecto que solo ve fotos

Los modelos anteriores eran como estudiantes que memorizaban fotos de edificios terminados. Sabían cómo se veía una casa, pero si les pedías que arreglaran un problema en una tubería oculta o que añadieran una habitación nueva sin romper la estructura, se perdían. Les faltaba entender la historia de cómo se construyó el edificio.

2. La Solución: La "Paradigma del Flujo de Código"

Los creadores de IQuest-Coder-V1 decidieron cambiar la forma de enseñar. En lugar de solo mostrar fotos finales, les mostraron el video completo de la construcción.

Imagina que su método de entrenamiento tiene cuatro etapas clave:

Etapa 1: La Universidad General (Pre-entrenamiento)

Primero, el modelo lee millones de libros de texto, manuales y planos generales. Aprende el idioma, la lógica básica y cómo se ven los materiales. Es como darle a un estudiante una enciclopedia completa antes de enviarlo a la obra.

Etapa 2: El Entrenamiento en la Obra (Mid-Training)

Aquí es donde ocurre la magia. En lugar de solo leer, el modelo va a la obra y ve cómo se construyen las cosas en tiempo real.

La analogía: Imagina que ves un video de un equipo de construcción. Ves cómo ponen un muro, se equivocan, lo demueven, lo vuelven a poner y luego lo pintan.
El truco: El modelo aprende a ver "triplets" (tríos): Estado Anterior -> El Cambio (el parche) -> Estado Nuevo. Esto le enseña a entender que el software es algo vivo que evoluciona, no algo estático.
Memoria Gigante: Además, les enseñaron a recordar planos de edificios enteros (hasta 128.000 "ladrillos" de texto a la vez), para que no se olviden de la cocina cuando están diseñando el baño.

Etapa 3: La Especialización (Post-Training)

Una vez que el modelo es un experto en construcción, los creadores lo dividen en dos tipos de profesionales:

El "Pensador" (Thinking Path): Este modelo está diseñado para resolver problemas muy difíciles, como acertijos de lógica o tareas de ingeniería complejas. Antes de dar una respuesta, "piensa" en voz alta, prueba soluciones, se equivoca, se corrige y luego da la respuesta final. Es como un arquitecto senior que dibuja varios bocetos antes de firmar el plano.
El "Asistente" (Instruct Path): Este es el modelo rápido y útil para el día a día. Si le pides "crea una función para sumar números", lo hace al instante. Es como un albañil experto que sigue instrucciones directas sin necesidad de tanto debate interno.

Etapa 4: El Diseño Eficiente (LoopCoder)

Para los que tienen computadoras más pequeñas (como laptops o servidores económicos), crearon una versión especial llamada Loop.

La analogía: Imagina que leer un plano gigante de una sola vez es agotador. La versión "Loop" es como un arquitecto que lee el plano, cierra los ojos, reflexiona sobre lo que leyó, y luego vuelve a leer la misma parte con más atención. Repite el proceso mentalmente para entender mejor sin necesitar una memoria de computadora gigante. Es un "truco" para ser muy inteligente sin gastar tanta energía.

3. Los Resultados: ¿Cómo les fue?

Los creadores pusieron a prueba a estos nuevos arquitectos en "exámenes" reales:

Construcción de Software Real: Les dieron problemas de la vida real (como arreglar un error en un sistema bancario) y los modelos IQuest-Coder-V1 ganaron a casi todos los competidores, incluso a los modelos más caros y cerrados de empresas gigantes.
Programación Competitiva: En concursos de programación donde hay que resolver acertijos lógicos muy difíciles, el modelo "Pensador" se destacó, superando a modelos mucho más grandes.
Seguridad: Aprendieron a decir "no" cuando se les pide hacer cosas peligrosas, pero a decir "sí" cuando es algo útil, manteniendo un buen equilibrio.

En Resumen

IQuest-Coder-V1 es como un nuevo tipo de ingeniero de software que no solo sabe qué es un código, sino que entiende cómo se crea, se rompe y se repara.

Aprendió viendo el proceso (no solo el resultado).
Tiene dos modos: uno para pensar profundo y otro para actuar rápido.
Es eficiente: Puede trabajar en computadoras normales gracias a su diseño de "bucle" (Loop).

El objetivo final de los creadores es que, al compartir todos sus secretos (el código y los datos), la comunidad pueda construir mejores herramientas para que las IAs ayuden a los humanos a resolver problemas del mundo real, desde crear aplicaciones hasta mantener servidores complejos.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del informe sobre IQuest-Coder-V1, basado en el documento proporcionado.

1. Problema y Contexto

A pesar de los avances en los Modelos de Lenguaje (LLM) de propósito general, existe una brecha significativa entre los modelos de código de código abierto y los líderes propietarios (como Claude 4.5 Sonnet o GPT-5.1). Esta brecha es más evidente en dos áreas críticas:

Razonamiento a largo plazo: La capacidad de mantener coherencia lógica en tareas complejas y extensas.
Navegación de bases de código: La habilidad para entender y manipular repositorios de software complejos con múltiples archivos, más allá de la generación de fragmentos de código estáticos.

Los modelos actuales a menudo carecen de una comprensión profunda de la evolución dinámica del software y de la capacidad de recuperación autónoma ante errores en entornos de ingeniería de software reales.

2. Metodología: El Paradigma "Code-Flow"

El equipo de IQuest propone un nuevo paradigma de entrenamiento llamado Code-Flow, que captura la evolución dinámica de la lógica del software a través de un pipeline de entrenamiento evolutivo de cuatro pilares:

A. Pre-entrenamiento y Recocido de Alta Calidad (Annealing)

Fase 1: Entrenamiento inicial con una mezcla de datos generales y datos de código.
Fase 2 (Annealing): Un proceso de recocido utilizando corpus de código de alta calidad curados.
Innovación Clave: En lugar de usar solo "instantáneas" estáticas de archivos, el modelo se entrena con tripletas de evolución de repositorios $(R_{old}, P, R_{new})$ , donde $P$ representa el parche (cambio) entre dos estados estables del proyecto. Esto enseña al modelo los patrones de desarrollo real y la transición de commits, proporcionando una señal superior para la planificación de tareas.

B. Entrenamiento Intermedio (Mid-Training) de Dos Fases

Esta fase cierra la brecha entre el conocimiento estático y la acción de agentes:

Fase 1 (Contexto 32k): Entrenamiento con datos de razonamiento, trayectorias de agentes y código.
Fase 2 (Contexto 128k): Extensión del contexto a 128k tokens para manejar razonamiento a nivel de repositorio completo.
Objetivo: Construir un "andamio lógico" que estabilice el rendimiento del modelo ante cambios de distribución y le permita realizar ciclos de acción-observación-revisión (inteligencia de bucle cerrado).

C. Post-entrenamiento Bifurcado

Se reconocen dos necesidades distintas, por lo que se desarrollan dos rutas de post-entrenamiento:

Ruta "Thinking" (Pensamiento): Utiliza Supervisión (SFT) con trazas de razonamiento explícitas seguida de Aprendizaje por Refuerzo (RL) optimizado para razonamiento. Esto desencadena una capacidad emergente de recuperación autónoma de errores en tareas de largo alcance.
Ruta "Instruct" (Instrucción): Optimizada para la asistencia general y el seguimiento de instrucciones mediante SFT y RL.

D. Arquitectura Eficiente: LoopCoder

Para abordar las limitaciones de despliegue, se introduce la variante Loop. Utiliza una arquitectura de transformador en bucle donde los bloques se ejecutan en dos iteraciones fijas con parámetros compartidos:

Atención Global: La segunda iteración atiende a todas las claves/valores de la primera.
Atención Local: Mantiene la causalidad dentro de la segunda iteración.
Mecanismo de Puerta: Combina ambos tipos de atención para refinar el contexto global y las dependencias causales locales, optimizando la relación entre capacidad del modelo y huella de despliegue.

3. Contribuciones Clave

Pipeline Code-Flow: Un enfoque estructurado que integra la evolución de repositorios (commits) y trayectorias de agentes en el entrenamiento, superando las representaciones estáticas tradicionales.
Hallazgos Empíricos:
- Los datos de transición de repositorios son superiores a los archivos estáticos para la planificación de tareas.
- La inyección de trayectorias de razonamiento de 32k antes del post-entrenamiento es crítica para la estabilidad.
- La ruta de "Thinking" con RL genera capacidades emergentes de auto-depuración que faltan en los modelos estándar de instrucción.
Familia de Modelos Escalables: Lanzamiento de modelos de 7B, 14B y 40B parámetros, incluyendo variantes "Thinking" e "Instruct", y la arquitectura optimizada "Loop" para eficiencia.
Recursos de Caja Blanca: Liberación completa de la cadena de checkpoints (desde pre-entrenamiento hasta los modelos finales), permitiendo a la comunidad estudiar la formación de inteligencia de agentes de código.

4. Resultados y Evaluación

IQuest-Coder-V1 ha logrado un rendimiento State-of-the-Art (SOTA) en múltiples benchmarks, superando a modelos propietarios y de código abierto en dimensiones críticas:

Ingeniería de Software Agente (SWE-bench Verified): El modelo alcanza un 76.2% (IQuest-Coder-V1-40B-Loop), superando a competidores como GPT-5.1 (76.3% en ciertos contextos, pero con diferencias en otras métricas) y modelos de Kimi/Qwen.
Programación Competitiva (LiveCodeBench v6): El modelo "Loop-Thinking" alcanza un 81.1%, superando a GPT-5.1 (87.0% en LiveCodeBench v6 según la figura, aunque el texto indica superioridad general en la serie; la figura 1 muestra 87.0 para GPT-5.1 vs 81.1 para IQuest en v6, pero IQuest lidera en otras versiones y benchmarks de razonamiento). Nota: La Figura 1 muestra a IQuest liderando en SWE-bench (77.2 vs 76.3) y BigCodeBench (49.9 vs 49.8).
Razonamiento de Código (CruxEval): El modelo "Thinking" de 40B logra un 94.0% en la versión V6, superando significativamente a otros modelos de razonamiento.
Uso de Herramientas y Agentes: Destaca en Terminal-Bench (62.5%) y Mind2Web (62.5%), demostrando una fuerte capacidad para interactuar con entornos de ejecución y herramientas externas.
Eficiencia: La variante Loop mantiene un rendimiento competitivo con una arquitectura más eficiente para el despliegue.

5. Significado e Impacto

El lanzamiento de IQuest-Coder-V1 representa un avance significativo hacia la inteligencia de código autónoma.

Cierre de la Brecha: Demuestra que los modelos de código abierto pueden competir con los líderes propietarios en tareas de ingeniería de software complejas y de largo alcance.
Nuevos Paradigmas de Entrenamiento: Valida que el entrenamiento basado en la evolución dinámica del código (commits) y el uso de RL para la recuperación de errores son fundamentales para crear agentes de software reales.
Aceleración de la Investigación: Al liberar la cadena completa de entrenamiento y los checkpoints, el equipo proporciona una base sólida para que la comunidad investigue cómo emerge la inteligencia de agentes en los LLMs, acelerando el desarrollo de sistemas de software autónomos listos para producción.

En resumen, IQuest-Coder-V1 no es solo un modelo de código más grande, sino una arquitectura y metodología de entrenamiento diseñadas específicamente para comprender y ejecutar la lógica dinámica del desarrollo de software en el mundo real.