Anthropic prezantoi Claude Fable 5 të martën, modelin e saj më të ri të AI për përdorim të përgjithshëm dhe sistemin publik më të aftë të kompanisë deri më sot. Modeli i klasës Mythos tejkalon konkurrentët në benchmark-e të kodimit, financave dhe vizionit, sipas testeve të brendshme. Çmimi është vendosur në më pak se gjysma e kostos së Claude Mythos Preview të Anthropic, një lëvizje që mund të tronditë tregun e mbushur të modeleve të gjuhës së madhe.
Çfarë sjell Claude Fable 5
Fable 5 është ndërtuar mbi arkitekturën Mythos, e njëjta familje si Mythos Preview i mëparshëm. Por Anthropic thotë se kjo version e shtyn performancën më tej në disa fusha kyçe. Në detyrat e kodimit, ai tejkalon modelet e krahasueshme nga OpenAI, Google dhe Meta, raportoi kompania. Benchmark-et e analizës financiare gjithashtu tregojnë një epërsi, dhe detyrat e bazuara në vizion — si interpretimi i grafikëve dhe diagrameve — shënojnë rezultate më të larta se lëshimet e mëparshme të Anthropic dhe sistemet konkurruese.
Modeli është i disponueshëm duke filluar nga e marta përmes API-së së Anthropic dhe chatbot-it të saj për konsumatorë, Claude. Përdoruesit mund ta përdorin menjëherë, megjithëse kompania nuk ka zbuluar një kufi specifik përdorimi ose limit norme për nisjen.
Ulja e çmimit ndryshon matematikën
Detaji më i habitshëm në njoftimin e së martës është çmimi. Claude Fable 5 kushton më pak se gjysma e asaj që Claude Mythos Preview paguan për token. Anthropic nuk publikoi shifra të sakta për token në materialet e nisjes, por zbritja është mjaft e rëndësishme sa që kompania e paraqiti si një avantazh strategjik. Për zhvilluesit dhe bizneset që kryejnë vëllime të mëdha pyetjesh, kursimet mund të jenë të konsiderueshme.
Çmimi më i ulët gjithashtu ushtron presion mbi konkurrentët. GPT-4o i OpenAI dhe Gemini 1.5 Pro i Google kanë kosto të ngjashme për token me Mythos Preview më të vjetër, duke bërë që Fable 5 t'i nënshtrohet atyre në çmim, ndërkohë që pretendon performancë superiore në disa benchmark-e. Nëse ngarkesat e punës në botën reale përputhen me testet e brendshme mbetet për t'u parë, por vetëm çmimi ka të ngjarë të tërheqë vëmendjen e blerësve të korporatave.
Pretendimet e benchmark-eve kundrejt konkurrencës reale
Anthropic ofroi krahasime në tre kategori benchmark-esh: kodimi (duke përdorur HumanEval, SWE-bench dhe vlerësime të brendshme), financa (një përzierje e arsyetimit financiar dhe detyrave përmbledhëse), dhe vizion (captionim imazhesh dhe pyetje-përgjigje vizuale). Në secilën, Fable 5 shënoi më lart se GPT-4o, Gemini 1.5 Pro dhe Llama 3.1 405B i Meta-s, sipas të dhënave të Anthropic.
Verifikimi i pavarur ende nuk është publikuar. Rezultatet e benchmark-ut nga kompania që ndërton modelin janë standarde në industri, por auditimet nga palë të treta — si ato të kryera nga HELM i Stanford-it ose LMSYS Chatbot Arena — shpesh kanë më shumë peshë tek zhvilluesit skeptikë. Anthropic nuk tha kur ose nëse do të dorëzonte Fable 5 për këto vlerësime.
Modeli gjithashtu mbështet hyrje multimodale, që do të thotë se përdoruesit mund të ngarkojnë imazhe së bashku me tekst. Kjo veçori nuk ishte e disponueshme në lëshimin e Mythos Preview, i cili ishte vetëm tekst. Anthropic thotë se performanca vizuale në Fable 5 tejkalon atë të modeleve të dedikuara të vizionit nga laboratorë të tjerë në detyrat e testuara.
Çfarë vjen më pas
Anthropic nuk ka njoftuar një afat kohor për zëvendësimin e nivelit më të vjetër Mythos Preview. Për momentin, të dy modelet mbeten të disponueshme, por hendeku i madh i çmimeve dhe fitimet në performancë e bëjnë Fable 5 zgjedhjen e qartë për projektet e reja. Përdoruesit ekzistues të Mythos Preview mund të duan të testojnë Fable 5 dhe të krahasojnë rezultatet përpara se të migrojnë ngarkesat e punës në prodhim.
Nisja ndodh ndërsa gara e armëve të AI hyn në një fazë të re — jo vetëm për aftësi të papërpunuara, por edhe për përballueshmëri në shkallë. Basti i Anthropic është se një model më i lirë dhe më i fortë do të tërheqë klientë që u tërhoqën nga çmimet e mëparshme. Nëse ky bast shpërblehet varet nga mënyra se si Fable 5 performon jashtë laboratorit, në botën e çrregullt dhe të paparashikueshme të aplikacioneve reale.




