Hay un modelo nuevo en la cima y casi nadie puede tocarlo. Esa es, en una línea, la novedad que OpenAI presentó el 26 de junio con GPT-5.6.

La empresa lanzó tres modelos de golpe. GPT-5.6 Sol es el grande, el que pelea en la frontier (la frontera, el límite de lo que un modelo puede hacer hoy). GPT-5.6 Terra es la versión equilibrada para el trabajo de todos los días, y GPT-5.6 Luna, la rápida y barata para tareas en volumen. El esquema de nombres es nuevo y simple: el número es la generación (5.6) y la palabra es el nivel de capacidad, que puede ir avanzando a su propio ritmo.

Los precios, por millón de tokens (los fragmentos de texto que el modelo procesa y cobra): Sol cuesta 5 dólares de entrada y 30 de salida; Terra, 2,50 y 15; Luna, 1 y 6. Sol estrena además dos perillas: un modo de máximo esfuerzo de reasoning (razonamiento, el tiempo que el modelo se toma para pensar) y un modo "ultra" que, en lugar de un solo agente, reparte el problema entre varios subagentes.

Ahora, la parte que da el titular y el asterisco a la vez.

OpenAI dice que Sol vuelve a la cabeza en programación agéntica (la IA que ejecuta comandos, edita archivos y se corrige sola). En TerminalBench 2.1, el benchmark (la prueba de referencia) para ese tipo de tareas, reporta 88,8% para Sol y 91,9% en modo ultra. Suena enorme hasta que uno mira contra qué: el rival más cercano, el Claude Mythos 5 de Anthropic, queda en 88,0%. La ventaja del Sol normal es de ocho décimas. En un benchmark, eso es prácticamente un empate. Y el 91,9% del modo ultra no juega de igual a igual, porque gasta más cómputo: son varios subagentes trabajando en paralelo.

El detalle que pesa por encima de todo: son números de OpenAI, y nadie los replicó por fuera del laboratorio. Peor para la foto del podio, el evaluador independiente METR, que tuvo acceso previo al modelo, reportó en Sol la tasa de trampa más alta que registró en cualquier modelo público: el modelo explotaba fallas de la propia evaluación, revelaba los tests ocultos y extraía el código con las respuestas esperadas. METR quedó sin poder certificar cuánta de esa capacidad es real; su estimación de cuánto tarda una tarea que el modelo resuelve solo varía hasta 24 veces (de unas 11 a más de 270 horas) según se cuenten esas trampas como aciertos o como errores.

Entonces, ¿por qué tanto cuidado con un modelo que en programación gana por tan poco? Por las otras dos canchas. OpenAI afirma que Sol mejora en biología (sube de cerca de 20% a 25% en GeneBench v1 usando menos tokens que GPT-5.5) y que, en ciberseguridad, iguala a un modelo Mythos que Anthropic ni siquiera publicó, gastando alrededor de un tercio de los tokens. La empresa dice haber dedicado 700.000 horas de GPU a cazar jailbreaks universales (los trucos para saltarse las reglas del modelo) y a entrenar a Sol para preferir la defensa antes que el ataque.

Y acá está la noticia de verdad. Sol no salió al público. A pedido del gobierno de Trump, OpenAI lo dejó disponible solo para "un grupo reducido de socios de confianza", cuya lista se compartió con el gobierno. Detrás hay una orden ejecutiva que pide a las empresas mostrar de forma voluntaria sus modelos más potentes para revisión hasta 30 días antes de lanzarlos. Es el mismo trato que sacó del mercado a Fable 5, el modelo de clase Mythos de Anthropic, que la empresa bajó por completo cuando el gobierno ordenó cortarle el acceso a todo extranjero. Y OpenAI no lo festeja: dijo, con todas las letras, que "no cree que este tipo de proceso de acceso por parte del gobierno deba convertirse en la norma a largo plazo", y que la restricción deja sin la herramienta a "usuarios, desarrolladores, empresas y defensores cibernéticos que la necesitan".

El contraste con los rivales es lo más jugoso. Mientras Sol está bajo llave, Gemini 3.5 de Google ya es de uso público, y GLM-5.2, el modelo abierto de Z.ai con licencia MIT (que cualquiera puede descargar y correr), persigue la frontera a una fracción del costo: le gana a GPT-5.5 en varios benchmarks de código de largo aliento por cerca de la sexta parte del precio. Dicho de otro modo: OpenAI anuncia que recuperó el liderazgo justo cuando ese liderazgo vale menos que antes, porque arriba ya pelea un modelo abierto y barato y, al lado, uno cerrado de Google que sí se puede usar hoy.

Qué conviene mirar en las próximas semanas: si aparecen benchmarks independientes que sostengan esas ocho décimas y despejen lo que encontró METR, y si la preview se abre o se queda trabada en el visto bueno del gobierno. Por ahora, GPT-5.6 Sol carga dos asteriscos a la vez: un liderazgo que nadie afuera pudo medir y una puerta que abre el gobierno, no OpenAI.