GLM-5.2 es, hasta hoy, el modelo abierto más capaz que cualquiera puede descargar. Lo publicó Z.ai (la marca internacional de Zhipu AI, los de la familia GLM) el 13 de junio de 2026, y dejó los weights (los parámetros del modelo) en abierto y la API el 16. No es una promesa de laboratorio: el repositorio zai-org/GLM-5 en GitHub y la ficha en HuggingFace ya traen el modelo para bajar.

Qué es, en números

Es un "mixture of experts" (mezcla de expertos: una red enorme de la que, en cada token, solo se enciende una parte). En total son 744.000 millones de parámetros y se activan 40.000 millones por token (Z.ai y la ficha de HuggingFace). Para comparar, el GLM-4.5 del año pasado tenía 355.000 millones. La ventana de contexto es de un millón de tokens (las unidades de texto) "usable", y la salida llega hasta unos 128.000. Es texto, no multimodal, y trae dos niveles de esfuerzo de razonamiento ("High" y "Max"); el "Max" es el que conviene para tareas de programación de varios pasos.

Por dentro hay dos trucos que explican que un modelo tan grande sea barato de correr: hereda la atención dispersa de DeepSeek y le suma "IndexShare", que reutiliza el mismo índice cada cuatro capas y, según la cobertura de VentureBeat, recorta 2,9 veces el cómputo por token con contexto de un millón. Suma además predicción de varios tokens a la vez para acelerar la generación.

Los benchmarks, con la letra chica

Acá va el dato que no me gusta saltear: Z.ai lanzó GLM-5.2 SIN benchmarks (pruebas de rendimiento). Lo señaló MarkTechPost el día del anuncio ("sin SWE-bench, sin LiveCodeBench, sin AIDER"). Los números llegaron después y son de la propia Z.ai, difundidos por VentureBeat y recopilados por Labellerr. Con esa advertencia por delante:

  • En SWE-bench Pro marca 62,1, por encima de GPT-5.5 (58,6) y de su propio GLM-5.1 (58,4), pero por debajo de Claude Opus 4.8 (69,2).
  • En FrontierSWE, 74,4%, peleando con GPT-5.5 (72,6%) y Opus 4.8 (75,1%).
  • En las tareas de coding (programación) más largas se cae: SWE-Marathon 13% contra el 26% de Opus 4.8.
  • En matemática, AIME 2026 le da 99,2%. Y justo ese número es el más sospechoso (lo veremos abajo).

La señal independiente más clara la da Artificial Analysis, que según Cryptopolitan le pone un índice de inteligencia de 51 (subió de 40 con el 5.1): el mejor puntaje entre los modelos abiertos. Nathan Lambert, en interconnects.ai, lo resume mejor que nadie: es el primer modelo abierto que "se siente bien" dentro de un agente de programación, y su modo "Max" se acerca al Opus 4.8 sin siquiera razonar.

Abierto de verdad, y barato

Los weights están bajo licencia MIT (permisiva, no "solo investigación"), en HuggingFace y ModelScope, en versiones BF16 y FP8, y con cuantizaciones de la comunidad para correrlo en llama.cpp u Ollama. La API de Z.ai cuesta 1,40 dólares por millón de tokens de entrada y 4,40 de salida; OpenRouter lo lista todavía más barato. Para ubicarse: los modelos cerrados de la frontera cobran entre 5 y 15 de entrada y entre 30 y 75 de salida. De ahí sale el "un sexto del costo".

Por qué importa

Es el caso más claro hasta ahora de un modelo abierto chino que toca la frontera cerrada en programación agéntica, y por monedas. Lambert calcula que la distancia entre Estados Unidos y China en esto se achicó a unos siete meses, y lo llama "una puerta de una sola dirección". Como su apuesta es ser "el modelo adentro de tu agente de código", con licencia MIT y a un sexto del precio, el que más siente la presión es Anthropic y su Claude Code.

La parte que enfría el entusiasmo

Todo el relato de paridad se apoya en números que puso el propio vendedor, después de un lanzamiento a propósito sin pruebas. Y el más vistoso, ese AIME de 99,2%, es según la auditoría de Groundy el más expuesto a contaminación de datos; el benchmark de verdad difícil y resistente (Humanity's Last Exam) lo deja en 40,5%, que muestra la brecha real. Cryptopolitan suma un detalle práctico: GLM-5.2 gasta unos 43.000 tokens de salida por tarea contra los 26.000 del 5.1, así que parte de su ventaja de precio se la come en la práctica. Bajalo, probalo en tu propio código, y sacá tus cuentas: el entusiasmo, como siempre, paga con datos.