Opus 4.8 saca 88,6% en SWE-bench Verified, 69,2% en SWE-bench Pro y 1890 de Elo en GDPval-AA, que mide trabajo intelectual complejo. Eso son 121 puntos por delante de GPT-5.5 en esa categoría.
En matemáticas el salto es el mayor que hemos visto en esta línea de modelos: 96,7% en USAMO 2026. Opus 4.7 estaba en 69,3%.
Precio: igual que antes. $5 entrada / $25 salida por millón de tokens.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
¿Dónde sigue ganando GPT-5.5?
En codificación agentic de terminal. Ese es el único benchmark donde OpenAI mantiene la ventaja. Si tu flujo de trabajo depende de eso, el cambio inmediato puede no ser urgente.
En todo lo demás, Opus 4.8 está por delante o a la par.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
Una pausa. Si quieres conocer las últimas novedades y los mejores prompts de REGALO listos para copiar y pegar, métete gratis en nuestro canal de telegram:
La novedad que más cambia cómo se trabaja: Dynamic Workflows en Claude Code.
El modelo planifica una tarea, lanza cientos de subagentes en paralelo que atacan el problema desde ángulos distintos, se refutan entre sí y siguen iterando hasta que las respuestas convergen.
Antes necesitabas un equipo para migrar un codebase entero. Ahora es una sola instrucción.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
El segundo cambio grande: control de esfuerzo.
Puedes decirle a Opus 4.8 cuánto quiere pensar en una tarea. Niveles: Low, High, xHigh y Max. Por defecto va en High.
Usas Low para tareas simples, Max para los problemas más duros. La diferencia en coste mensual es significativa sin sacrificar calidad donde sí importa.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
El modo rápido ahora cuesta 3 veces menos que en modelos anteriores y corre a 2,5 veces la velocidad estándar.
Precios del Fast Mode: $10 entrada / $50 salida por millón de tokens. Se activa con /fast dentro de Claude Code.
Un modelo más potente que el anterior, a la misma velocidad y a menor coste relativo. Eso no pasa muy seguido.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
Y hay algo más que no se habla tanto: honestidad en el código.
Opus 4.8 es 4 veces menos propenso que Opus 4.7 a dejar pasar fallos en su propio código sin reportarlos. Solo falla en no informar eventos importantes el 3,7% de las veces.
Para equipos que usan Claude Code en producción, eso importa más que cualquier benchmark.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
¿Vale la pena cambiar hoy?
Si usas Claude Code para proyectos grandes: sí, sin dudar. Dynamic Workflows y la mejora en SWE-bench Pro son reales.
Si lo usas como chat o para tareas simples: la diferencia con 4.7 no va a cambiar tu día a día de forma drástica.
Y según los rumores, Mythos (el siguiente nivel) llega en pocas semanas.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
La IA no para. Y los que saben usarla son los que llevan ventaja.
Guarda este hilo para cuando lo necesites y compártelo con alguien que todavía no sabe que Opus 4.8 existe.
07:12 AM · May 29, 2026
YokerAI
@IATheYoker
Si has disfrutado este hilo te agradecería:
➡️ Seguirme en @IATheyoker ♻️ Darle me gusta y repostear el primer post