@IATheYoker: 🚨ÚLTIMA HORA: Anthropic acaba ...
@IATheYoker
18 views
Jun 01, 2026
Advertisement
1
🚨ÚLTIMA HORA: Anthropic acaba de lanzar Claude Opus 4.8.
Ellos lo llaman "mejora modesta".
Los mejores benchmarkers del mundo dicen que debería llamarse Opus 5.
Aquí lo que cambia de verdad 🧵
Ellos lo llaman "mejora modesta".
Los mejores benchmarkers del mundo dicen que debería llamarse Opus 5.
Aquí lo que cambia de verdad 🧵
View Tweet
2
Primero, los datos duros.
Opus 4.8 saca 88,6% en SWE-bench Verified, 69,2% en SWE-bench Pro y 1890 de Elo en GDPval-AA, que mide trabajo intelectual complejo. Eso son 121 puntos por delante de GPT-5.5 en esa categoría.
En matemáticas el salto es el mayor que hemos visto en esta línea de modelos: 96,7% en USAMO 2026. Opus 4.7 estaba en 69,3%.
Precio: igual que antes. $5 entrada / $25 salida por millón de tokens.
Opus 4.8 saca 88,6% en SWE-bench Verified, 69,2% en SWE-bench Pro y 1890 de Elo en GDPval-AA, que mide trabajo intelectual complejo. Eso son 121 puntos por delante de GPT-5.5 en esa categoría.
En matemáticas el salto es el mayor que hemos visto en esta línea de modelos: 96,7% en USAMO 2026. Opus 4.7 estaba en 69,3%.
Precio: igual que antes. $5 entrada / $25 salida por millón de tokens.
3
¿Dónde sigue ganando GPT-5.5?
En codificación agentic de terminal. Ese es el único benchmark donde OpenAI mantiene la ventaja. Si tu flujo de trabajo depende de eso, el cambio inmediato puede no ser urgente.
En todo lo demás, Opus 4.8 está por delante o a la par.
En codificación agentic de terminal. Ese es el único benchmark donde OpenAI mantiene la ventaja. Si tu flujo de trabajo depende de eso, el cambio inmediato puede no ser urgente.
En todo lo demás, Opus 4.8 está por delante o a la par.
4
Una pausa. Si quieres conocer las últimas novedades y los mejores prompts de REGALO listos para copiar y pegar, métete gratis en nuestro canal de telegram:
t.me/+K2iPCbPzLo1lY…
t.me/+K2iPCbPzLo1lY…
5
La novedad que más cambia cómo se trabaja: Dynamic Workflows en Claude Code.
El modelo planifica una tarea, lanza cientos de subagentes en paralelo que atacan el problema desde ángulos distintos, se refutan entre sí y siguen iterando hasta que las respuestas convergen.
Antes necesitabas un equipo para migrar un codebase entero. Ahora es una sola instrucción.
El modelo planifica una tarea, lanza cientos de subagentes en paralelo que atacan el problema desde ángulos distintos, se refutan entre sí y siguen iterando hasta que las respuestas convergen.
Antes necesitabas un equipo para migrar un codebase entero. Ahora es una sola instrucción.
6
El segundo cambio grande: control de esfuerzo.
Puedes decirle a Opus 4.8 cuánto quiere pensar en una tarea. Niveles: Low, High, xHigh y Max. Por defecto va en High.
Usas Low para tareas simples, Max para los problemas más duros. La diferencia en coste mensual es significativa sin sacrificar calidad donde sí importa.
Puedes decirle a Opus 4.8 cuánto quiere pensar en una tarea. Niveles: Low, High, xHigh y Max. Por defecto va en High.
Usas Low para tareas simples, Max para los problemas más duros. La diferencia en coste mensual es significativa sin sacrificar calidad donde sí importa.
7
El modo rápido ahora cuesta 3 veces menos que en modelos anteriores y corre a 2,5 veces la velocidad estándar.
Precios del Fast Mode: $10 entrada / $50 salida por millón de tokens. Se activa con /fast dentro de Claude Code.
Un modelo más potente que el anterior, a la misma velocidad y a menor coste relativo. Eso no pasa muy seguido.
Precios del Fast Mode: $10 entrada / $50 salida por millón de tokens. Se activa con /fast dentro de Claude Code.
Un modelo más potente que el anterior, a la misma velocidad y a menor coste relativo. Eso no pasa muy seguido.
8
Y hay algo más que no se habla tanto: honestidad en el código.
Opus 4.8 es 4 veces menos propenso que Opus 4.7 a dejar pasar fallos en su propio código sin reportarlos. Solo falla en no informar eventos importantes el 3,7% de las veces.
Para equipos que usan Claude Code en producción, eso importa más que cualquier benchmark.
Opus 4.8 es 4 veces menos propenso que Opus 4.7 a dejar pasar fallos en su propio código sin reportarlos. Solo falla en no informar eventos importantes el 3,7% de las veces.
Para equipos que usan Claude Code en producción, eso importa más que cualquier benchmark.
9
¿Vale la pena cambiar hoy?
Si usas Claude Code para proyectos grandes: sí, sin dudar. Dynamic Workflows y la mejora en SWE-bench Pro son reales.
Si lo usas como chat o para tareas simples: la diferencia con 4.7 no va a cambiar tu día a día de forma drástica.
Y según los rumores, Mythos (el siguiente nivel) llega en pocas semanas.
Si usas Claude Code para proyectos grandes: sí, sin dudar. Dynamic Workflows y la mejora en SWE-bench Pro son reales.
Si lo usas como chat o para tareas simples: la diferencia con 4.7 no va a cambiar tu día a día de forma drástica.
Y según los rumores, Mythos (el siguiente nivel) llega en pocas semanas.
10
La IA no para. Y los que saben usarla son los que llevan ventaja.
Guarda este hilo para cuando lo necesites y compártelo con alguien que todavía no sabe que Opus 4.8 existe.
Guarda este hilo para cuando lo necesites y compártelo con alguien que todavía no sabe que Opus 4.8 existe.
11
Si has disfrutado este hilo te agradecería:
➡️ Seguirme en @IATheyoker
♻️ Darle me gusta y repostear el primer post
La vida es una broma... ¡No olvides sonreír!
➡️ Seguirme en @IATheyoker
♻️ Darle me gusta y repostear el primer post
La vida es una broma... ¡No olvides sonreír!
View Tweet
