Así es Sonnet 5, el nuevo modelo de IA de Anthropic, con máxima eficiencia para agentes y tareas diarias
Anthropic ha lanzado Sonnet 5, una nueva versión de...
Anthropic ha lanzado Sonnet 5, una nueva versión de su modelo de Inteligencia Artificial (IA) que no solo está dedicado a responder las consultas diarias de las personas, sino también a la gestión de los agentes de IA, con capacidades más autónomas y a un menor coste que otros modelos.
El nuevo modelo Sonnet 5 permite desde usar navegadores y terminales hasta funcionar de forma autónoma, y toma la misma nomenclatura de Fable 5, el modelo de clase Mythos de Anthropic, cuyo despliegue se pausó a los pocos días de haber sido lanzado hace dos semanas y que ahora vuelve a estar disponible a nivel global, tras la aprobación del Gobierno de Estados Unidos.
El laboratorio de IA ha publicado todos los detalles en su web, donde ha recalcado que “hace tan solo unos meses” ofrecer un rendimiento similar al que han alcanzado con este nuevo modelo, que se acerca incluso a los recientes modelos de la clase Opus, hubiera requerido un modelo más grande y más caro.
Sonnet 5, comparado con Sonnet 4.6, presenta una tasa de comportamientos indeseables menor y, en términos generales, es más seguro en contextos con agentes. Sí que tiene una capacidad menor para tareas de ciberseguridad, donde Fable 5, como modelo de clase Mythos, sobresale totalmente.
En las pruebas de rendimiento, Sonnet 5 sobrepasa a Sonnet 4.6 en todos los tests publicados y el avance más llamativo se ve en la capacidad de finalización de tareas complejas de extremo a extremo lo que demuestra su alta capacidad de autonomía, al igual que en Humanity’s Last Exam (conocimiento experto) y Terminal-Bench v2.1 (tareas de terminal) con unas subidas de 10,6 y 13,4 puntos respectivamente en estos dos últimos.
Al comparar Sonnet 5 con Opus 4.8, este modelo de gama media es capaz de desafiar a uno de los pesos pesados de Anthropic en los tests de trabajo de conocimiento agéntico (AA-Briefcase y GDPval-AA) e incluso superarlo. Asimismo, en el test del Máximo Esfuerzo (OSWorld-Verified y BrowseComp), al activar el nivel de razonamiento extra alto, se acerca a Opus 4.8 en su nivel medio-alto.
Cabe recordar que Opus 4.8 sigue siendo mejor en matemáticas y razonamiento puro, con una diferencia notable frente a Sonnet 5, al igual que en ciberseguridad ofensiva, donde el propio diseño del modelo limita las capacidades de Sonnet 5.
El costo de usar Sonnet 5Con todo, la nueva versión de Sonnet está disponible para todas las suscripciones como el modelo por defecto para la versión gratuita y Pro de Claude, aunque tendrá un coste base de 3 dólares por millón de tokens de entrada y de 15 dólares por millón de tokens de salida.
Cabe destacar que Sonnet 5 utiliza un nuevo ‘tokenizador’ que procesa el texto de manera distinta para que la IA sea más inteligente. Sin embargo, hay un pero: un mismo texto puede llegar a ocupar entre 1 y 1,35 veces más tokens. Esto significa que puede aplicarse un incremento de hasta el 35 por ciento en volumen de tokens para el mismo prompt.