Modelos28 mayo 20265 min de lectura

Anthropic lanza Claude Opus 4.8: apuesta por la honestidad frente a los benchmarks

Anthropic presenta su nuevo modelo flagship Claude Opus 4.8, que supera a GPT-5.5 y Gemini 3.1 Pro en la mayoría de benchmarks. Pero la verdadera novedad es su diseño centrado en reducir las alucinaciones y ser honesto sobre sus limitaciones.

Un ciclo de lanzamiento acelerado

Anthropic ha lanzado Claude Opus 4.8, su nuevo modelo insignia, apenas 41 días después de Opus 4.7. La rapidez del ciclo sugiere que la empresa buscaba corregir algunas limitaciones del modelo anterior, que no terminó de recibir buenas críticas en la comunidad de desarrolladores.

En benchmarks, Opus 4.8 supera a Opus 4.7, GPT-5.5 y Gemini 3.1 Pro en la mayoría de pruebas. La única excepción es TerminalBench 2.1, donde GPT-5.5 mantiene una ligera ventaja. Pero los números no son el titular principal.

La honestidad como diferenciador

Lo más llamativo de este lanzamiento es el enfoque de Anthropic en la honestidad del modelo. Opus 4.8 está diseñado para reconocer sus propias limitaciones en lugar de fabricar respuestas con falsa confianza. Los tests internos muestran una reducción 4 veces mayor en alucinaciones respecto a versiones anteriores. Para Anthropic, un modelo que sabe lo que no sabe es más valioso que uno que puntúa bien en tablas comparativas.

Técnicamente, introduce un cambio en la API: los desarrolladores ahora pueden insertar entradas de tipo "system" dentro del array de mensajes, no solo al inicio de la conversación. Está disponible en GitHub Copilot, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry, al precio de $5/$25 por millón de tokens.

← Volver a Noticias