MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Publicado 2026-03-03

📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de inteligencia artificial (como los que usan para escribir, programar o responder preguntas) son como bibliotecarios geniales.

Hasta ahora, estos bibliotecarios tenían un gran problema: si les pedías que leyeran un libro entero de un solo tirón (digamos, 1 millón de páginas), se volvían lentos, se mareaban y, lo peor de todo, se les rompía la memoria.

El papel que me has compartido presenta a un nuevo bibliotecario llamado MiniCPM-SALA. Aquí te explico cómo funciona y por qué es tan especial, usando analogías sencillas:

1. El Problema: La "Memoria de Elefante" vs. La "Memoria de Pájaro"

Los modelos tradicionales (llamados Transformers) funcionan como un elefante con una memoria perfecta. Si lees una frase al principio de un libro, el elefante recuerda cada palabra exacta para relacionarla con lo que lees al final.

El problema: Para recordar todo, el elefante necesita un cerebro gigante. Si el libro tiene 1 millón de páginas, el cerebro necesita ser tan grande que no cabe en ninguna computadora normal. Se queda sin espacio (error de memoria) y se vuelve extremadamente lento.

2. La Solución: El Bibliotecario Híbrido (MiniCPM-SALA)

MiniCPM-SALA es un bibliotecario que combina dos estilos de trabajo para ser rápido y no olvidar nada:

El 75% "El Rápido" (Atención Lineal): Imagina a un bibliotecario que usa un resumen inteligente. En lugar de leer cada palabra de un libro de 1 millón de páginas, lee los títulos y los resúmenes clave. Esto es súper rápido y no ocupa casi nada de memoria. Es como leer un índice en lugar de todo el texto.
El 25% "El Detallista" (Atención Dispersa): Pero, ¿qué pasa si necesitas encontrar un detalle muy específico, como una fecha exacta en el capítulo 3? Aquí entra la otra parte del cerebro. Este bibliotecario sabe dónde mirar con lupa solo en las partes importantes, ignorando el resto.

La Magia: MiniCPM-SALA usa al "Rápido" para la mayoría del trabajo (para ir volando) y al "Detallista" solo cuando es necesario para no perder precisión. Es como tener un coche de carreras que, cuando ve un bache, cambia automáticamente a un modo todoterreno para no chocar.

3. El Truco de Entrenamiento: "El Cambio de Chasis"

Normalmente, para crear un bibliotecario nuevo con estas habilidades, tendrías que entrenarlo desde cero (como enseñar a un bebé a leer desde el principio), lo cual cuesta una fortuna en electricidad y tiempo.

Los autores hicieron algo inteligente: No empezaron de cero.

Tomaron un modelo que ya sabía mucho (un bibliotecario experto en libros cortos).
Le hicieron una "cirugía" para cambiar su cerebro por el nuevo sistema híbrido.
Luego, le dieron un poco de práctica (entrenamiento continuo) para que se acostumbrara a los libros largos.

Resultado: Ahorraron un 75% de costos y tiempo. Fue como tomar un coche familiar y cambiarle el motor por uno de Fórmula 1, en lugar de construir un coche nuevo desde cero.

4. ¿Qué puede hacer este nuevo bibliotecario?

Los resultados son impresionantes:

Velocidad: En una computadora normal (como una tarjeta gráfica de gama alta), MiniCPM-SALA es 3.5 veces más rápido que sus competidores cuando lee textos gigantes.
Capacidad de Lectura: Mientras que otros modelos se "ahogan" y se apagan cuando intentan leer 500.000 o 1 millón de páginas (por falta de memoria), MiniCPM-SALA lee hasta 1 millón de páginas sin problemas.
Calidad: No pierde su inteligencia. Sigue siendo bueno en matemáticas, programación y razonamiento, igual que los modelos tradicionales, pero ahora puede manejar contextos enormes.

En Resumen

MiniCPM-SALA es como un bibliotecario que ha aprendido a leer rápido (resumiendo lo obvio) pero que sabe detenerse a leer con lupa cuando es necesario. Gracias a un truco de ingeniería, puede leer documentos de un millón de páginas en una sola computadora, algo que antes solo las supercomputadoras gigantes podían hacer.

Es una tecnología que hace que la inteligencia artificial sea más accesible, rápida y capaz de entender historias, códigos o documentos legales enteros sin perderse en el camino.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: MiniCPM-SALA

Título: MiniCPM-SALA: Hibridación de Atención Esparsa y Lineal para un Modelado Eficiente de Contextos Largos

1. El Problema: Cuellos de Botella en Modelos de Lenguaje de Gran Escala (LLMs)

El avance de los LLMs hacia aplicaciones que requieren contextos ultra-largos (millones de tokens) se enfrenta a dos limitaciones críticas impuestas por la arquitectura Transformer estándar basada en atención completa (full-attention):

Cuello de Botella Computacional: La complejidad de la atención estándar crece cuadráticamente con la longitud de la secuencia ( $O(N^2)$ ). Esto provoca una latencia de inferencia prohibitiva cuando el contexto escala a millones de tokens.
Cuello de Botella de Memoria (KV-Cache): Durante la generación autoregresiva, el modelo debe almacenar los estados de clave y valor (KV) de todos los tokens históricos. Para un modelo de 8B parámetros, el caché KV necesario para millones de tokens puede requerir decenas o cientos de gigabytes de memoria, provocando errores de "fuera de memoria" (OOM) incluso en GPUs de gama alta.

Las soluciones existentes presentan compensaciones (trade-offs):

Atención Esparsa: Reduce el cálculo pero mantiene el almacenamiento denso del KV-Cache ("cálculo esparsa, almacenamiento denso").
Atención Lineal: Reduce la complejidad a $O(N)$ y el uso de memoria, pero suele implicar una compresión con pérdida de información, degradando el rendimiento en tareas de alta fidelidad.

2. Metodología: Arquitectura Híbrida y Entrenamiento Continuo

Arquitectura Híbrida (Sparse + Linear)

MiniCPM-SALA es un modelo de 9 mil millones de parámetros que integra dos mecanismos de atención complementarios en una proporción de 1:3 (25% esparsa, 75% lineal):

Atención Esparsa (25% de las capas): Utiliza InfLLM-V2. Este mecanismo se encarga de modelar dependencias de largo alcance con alta fidelidad, permitiendo recuperar información precisa sin la penalización de memoria de la atención completa. No añade parámetros extra y es compatible con la conversión de pesos densos.
Atención Linear (75% de las capas): Utiliza Lightning Attention. Proporciona eficiencia computacional global con complejidad $O(N)$ , manejando el contexto general de manera eficiente.
Selección de Capas: En lugar de intercalar aleatoriamente, se utiliza un algoritmo de selección de capas para optimizar la ubicación de los módulos esparsos, maximizando el rendimiento aguas abajo.
Codificación Posicional Híbrida (HyPE):
- Se aplica RoPE (Rotary Positional Embedding) a las capas de atención lineal para preservar el orden relativo en el contexto global.
- Se elimina RoPE en las capas de atención esparsa para evitar la degradación de la información a larga distancia y permitir una recuperación más precisa.
Puertas de Salida: Se incorporan puertas de salida (output gates) tras cada bloque de atención para regular el flujo de información y mitigar problemas como el "sumidero de atención" (attention sink).

Estrategia de Entrenamiento: Conversión Transformer a Híbrido

En lugar de entrenar desde cero (from scratch), el equipo emplea un marco de entrenamiento continuo para transformar un modelo Transformer preentrenado (MiniCPM-4.0) en una arquitectura híbrida.

Proceso de 5 Etapas:
1. Conversión de Arquitectura (HALO): Se convierten las capas de atención softmax a lineal, manteniendo las primeras y últimas capas intactas para estabilidad. Solo se entrenan las capas convertidas.
2. Entrenamiento Continuo Estable: Ajuste fino para coordinar las nuevas capas lineales con el resto del modelo (4K tokens).
3. Entrenamiento de Decaimiento Corto: Uso de datos de alta densidad informativa (PDFs, datos sintéticos) para mejorar el razonamiento lógico (1T tokens).
4. Entrenamiento de Decaimiento Largo: Extensión progresiva del contexto de 4K a 520K tokens, activando la atención esparsa en este punto para aprender la sinergia entre ambos mecanismos.
5. Ajuste Fino Supervisado (SFT): Entrenamiento con datos de razonamiento intensivo y contextos largos (hasta 140K tokens) para refinar capacidades de tarea.

Ventaja de Coste: Este enfoque reduce el presupuesto de entrenamiento en aproximadamente un 75% en comparación con entrenar un modelo comparable desde cero, utilizando solo ~2T tokens adicionales frente a los 8T requeridos para un entrenamiento completo.

3. Resultados Clave

Rendimiento General

MiniCPM-SALA mantiene capacidades generales comparables a los modelos de atención completa de tamaño similar (como Qwen3-8B o Falcon-H1R-7B):

Conocimiento: 81.55 en CMMLU y 67.04 en MMLU-Pro.
Código: 95.12 en HumanEval y 89.11 en MBPP.
Matemáticas: 83.75 en AIME24.
Promedio: 76.53, superando a varios modelos base de 7B-9B parámetros.

Rendimiento en Contexto Largo y Ultra-Largo

Benchmarks Estándar (RULER, MRCR, NoLiMa): En 128K tokens, obtiene un 89.37 en RULER y 23.86 en NoLiMa, superando consistentemente a los modelos de referencia.
Extrapolación de Longitud: A pesar de haber sido entrenado hasta 520K tokens, el modelo logra una extrapolación exitosa hasta 2 millones de tokens (2M) sin técnicas auxiliares (como YaRN), manteniendo una puntuación de 81.6 en RULER a 2M tokens.
Eficiencia de Parámetros: Supera al modelo Qwen3-Next-80B-A3B en la tarea de 1M tokens (86.3 vs 80.3), demostrando que el procesamiento de contexto largo no requiere necesariamente miles de millones de parámetros.

Velocidad de Inferencia y Eficiencia de Memoria

Las pruebas en GPU NVIDIA A6000D y RTX 5090 muestran ventajas dramáticas:

Velocidad: En una secuencia de 256K tokens, MiniCPM-SALA es 3.5 veces más rápido que Qwen3-8B en la generación del primer token (TTFT).
Límites de Memoria:
- Qwen3-8B: Falla con errores OOM a partir de 512K (en A6000D) y 128K (en RTX 5090).
- MiniCPM-SALA: Soporta exitosamente contextos de hasta 1 millón de tokens en ambas GPUs, incluso en configuraciones sin cuantización.

4. Contribuciones Principales

Mecanismo de Atención Híbrida: Integración efectiva de InfLLM-V2 (25%) y Lightning Attention (75%) para equilibrar precisión y eficiencia.
Paradigma de Conversión: Demostración de que convertir un modelo Transformer preentrenado en uno híbrido es una estrategia altamente eficiente, reduciendo costes de entrenamiento en un 75% sin sacrificar rendimiento.
Codificación Posicional Híbrida (HyPE): Uso estratégico de RoPE y su ausencia para optimizar tanto el contexto corto como el largo.
Escalabilidad Real: Capacidad de ejecutar inferencia de 1M tokens en GPUs de consumo (RTX 5090) y de gama empresarial, democratizando el acceso a contextos ultra-largos.

5. Significado e Impacto

MiniCPM-SALA representa un avance significativo hacia la viabilidad de aplicaciones de IA que requieren comprensión profunda de documentos masivos, ingeniería de código a escala de repositorio y agentes de largo plazo. Al resolver el dilema entre la eficiencia de memoria y la fidelidad del modelo, ofrece una solución escalable y accesible que permite ejecutar tareas de contexto ultra-largo en hardware limitado, superando las barreras físicas de los modelos Transformer tradicionales.

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling