Firma Anthropic we wtorek udostępniła Claude Fable 5 – swój najnowszy ogólnego przeznaczenia model AI i jak dotąd najbardziej zaawansowany publicznie dostępny system. Model klasy Mythos według wewnętrznych testów przewyższa konkurencję w benchmarkach dotyczących programowania, finansów i przetwarzania obrazu. Cena wynosi mniej niż połowę kosztu własnego Claude Mythos Preview od Anthropic, co może wstrząsnąć zatłoczonym rynkiem dużych modeli językowych.
Co wnosi Claude Fable 5
Fable 5 jest zbudowany na architekturze Mythos – tej samej rodzinie co wcześniejszy Mythos Preview. Jednak Anthropic twierdzi, że ta wersja przesuwa granice wydajności w kilku kluczowych obszarach. W zadaniach programistycznych przewyższa porównywalne modele od OpenAI, Google i Meta – podała firma. Również w testach analizy finansowej wypada lepiej, a zadania oparte na obrazie – takie jak interpretacja wykresów i diagramów – osiągają wyższe wyniki niż poprzednie wersje Anthropic i systemy konkurencyjne.
Model jest dostępny od wtorku za pośrednictwem API Anthropic oraz konsumenckiego chatbota Claude. Użytkownicy mogą z niego korzystać natychmiast, choć firma nie ujawniła konkretnych limitów użycia ani stawek dla premiery.
Obniżka ceny zmienia rachunek
Najbardziej uderzającym szczegółem wtorkowego ogłoszenia jest cena. Claude Fable 5 kosztuje mniej niż połowę tego, co Claude Mythos Preview za token. Anthropic nie podało dokładnych stawek za token w materiałach premierowych, ale zniżka jest na tyle znacząca, że firma uznała ją za strategiczną przewagę. Dla programistów i firm obsługujących duże ilości zapytań oszczędności mogą być znaczne.
Niższa cena wywiera również presję na konkurencję. OpenAI GPT-4o i Google Gemini 1.5 Pro mają podobne stawki za token jak starszy Mythos Preview, więc Fable 5 podcina ich cenę, jednocześnie twierdząc, że osiąga lepszą wydajność w niektórych benchmarkach. Czy rzeczywiste obciążenia robocze dorównają testom wewnętrznym – okaże się, ale sama cena prawdopodobnie przyciągnie uwagę nabywców korporacyjnych.
Deklaracje benchmarków a realna konkurencja
Anthropic przedstawił porównania w trzech kategoriach benchmarków: programowanie (HumanEval, SWE-bench i oceny wewnętrzne), finanse (zadania z zakresu wnioskowania finansowego i streszczania) oraz wizja (opis obrazu i wizualne QA). Według danych Anthropic, w każdej z nich Fable 5 uzyskał wyższe wyniki niż GPT-4o, Gemini 1.5 Pro i Meta Llama 3.1 405B.
Niezależna weryfikacja nie została jeszcze opublikowana. Wyniki testów porównawczych od firmy, która stworzyła model, są w branży standardem, ale audyty zewnętrzne – takie jak te przeprowadzane przez HELM ze Stanforda czy LMSYS Chatbot Arena – często mają większą wagę dla sceptycznych programistów. Anthropic nie podało, kiedy ani czy zamierza zgłosić Fable 5 do tych ocen.
Model obsługuje również wejścia multimodalne, co oznacza, że użytkownicy mogą przesyłać obrazy wraz z tekstem. Ta funkcja nie była dostępna w wersji Mythos Preview, która obsługiwała tylko tekst. Anthropic twierdzi, że wydajność wizyjna Fable 5 przewyższa w testowanych zadaniach dedykowane modele wizyjne z innych laboratoriów.
Co dalej
Anthropic nie ogłosiło harmonogramu wycofania starszej wersji Mythos Preview. Na razie oba modele pozostają dostępne, ale ogromna różnica cenowa i przyrost wydajności sprawiają, że Fable 5 jest oczywistym wyborem dla nowych projektów. Dotychczasowi użytkownicy Mythos Preview mogą chcieć przetestować Fable 5 i porównać wyniki przed migracją produkcyjnych obciążeń.
Premiera przypada w momencie, gdy wyścig zbrojeń AI wkracza w nową fazę – nie chodzi już tylko o surową wydajność, ale o przystępność cenową na dużą skalę. Zakład Anthropic polega na tym, że tańszy i silniejszy model przyciągnie klientów, którzy dotychczas wzdragali się przed poprzednimi cenami. Czy ten zakład się opłaci, zależy od tego, jak Fable 5 sprawdzi się poza laboratorium – w nieuporządkowanym, nieprzewidywalnym świecie rzeczywistych zastosowań.




