Anthropic Launches Claude Fable 5, Claims Top Performance at Half the Price of Previous Model

Ce que Claude Fable 5 apporte

Fable 5 est construit sur l'architecture Mythos, la même famille que le Mythos Preview antérieur. Mais Anthropic affirme que cette version pousse les performances encore plus loin dans plusieurs domaines clés. Dans les tâches de codage, il surpasse les modèles comparables d'OpenAI, Google et Meta, selon l'entreprise. Les benchmarks d'analyse financière montrent également une avance, et les tâches basées sur la vision – comme l'interprétation de graphiques et de diagrammes – obtiennent des scores plus élevés que les précédentes versions d'Anthropic et les systèmes concurrents.

Le modèle est disponible à partir de mardi via l'API d'Anthropic et son chatbot grand public, Claude. Les utilisateurs peuvent y accéder immédiatement, bien que l'entreprise n'ait pas divulgué de limite d'utilisation ou de débit spécifique pour le lancement.

La baisse de prix change la donne

Le détail le plus frappant de l'annonce de mardi est le prix. Claude Fable 5 coûte moins de la moitié de ce que Claude Mythos Preview facture par token. Anthropic n'a pas publié de chiffres exacts par token dans les documents de lancement, mais la réduction est suffisamment importante pour que l'entreprise la présente comme un avantage stratégique. Pour les développeurs et les entreprises qui exécutent de gros volumes de requêtes, les économies pourraient être substantielles.

Le prix plus bas met également la pression sur les concurrents. Le GPT-4o d'OpenAI et le Gemini 1.5 Pro de Google ont des coûts par token similaires à ceux de l'ancien Mythos Preview, ce qui signifie que Fable 5 les sous-cote en prix tout en revendiquant des performances supérieures sur certains benchmarks. Reste à savoir si les charges de travail réelles correspondent aux tests internes, mais le seul prix est susceptible d'attirer l'attention des acheteurs d'entreprise.

Allégations de benchmarks vs. concurrence réelle

Anthropic a fourni des comparaisons sur trois catégories de benchmarks : le codage (en utilisant HumanEval, SWE-bench et des évaluations internes), la finance (un mélange de tâches de raisonnement financier et de résumé) et la vision (légendage d'images et questions-réponses visuelles). Dans chacune, Fable 5 a obtenu des scores plus élevés que GPT-4o, Gemini 1.5 Pro et Llama 3.1 405B de Meta, selon les données d'Anthropic.

Une vérification indépendante n'a pas encore été publiée. Les résultats de benchmarks provenant de l'entreprise qui construit le modèle sont standard dans l'industrie, mais les audits tiers – comme ceux menés par le HELM de Stanford ou le LMSYS Chatbot Arena – ont souvent plus de poids auprès des développeurs sceptiques. Anthropic n'a pas précisé quand ou si elle soumettrait Fable 5 à ces évaluations.

Le modèle prend également en charge les entrées multimodales, ce qui signifie que les utilisateurs peuvent télécharger des images accompagnées de texte. Cette fonctionnalité n'était pas disponible dans la version Mythos Preview, qui était uniquement textuelle. Anthropic affirme que les performances visuelles de Fable 5 dépassent celles des modèles de vision dédiés d'autres laboratoires sur les tâches testées.

Ce qui vient ensuite

Anthropic n'a pas annoncé de calendrier pour le remplacement de l'ancienne offre Mythos Preview. Pour l'instant, les deux modèles restent disponibles, mais l'important écart de prix et les gains de performance font de Fable 5 le choix évident pour les nouveaux projets. Les utilisateurs existants de Mythos Preview voudront peut-être tester Fable 5 et comparer les résultats avant de migrer les charges de travail de production.

Ce lancement intervient alors que la course aux armements de l'IA entre dans une nouvelle phase – non seulement axée sur la capacité brute, mais aussi sur l'abordabilité à grande échelle. Le pari d'Anthropic est qu'un modèle moins cher et plus puissant attirera des clients qui avaient hésité face aux prix précéd

Ce que Claude Fable 5 apporte

La baisse de prix change la donne

Allégations de benchmarks vs. concurrence réelle

Ce qui vient ensuite

Articles Connexes