A 0G és a China Mobile elsőként képzett ki decentralizált mesterséges intelligencia modellt 100 milliárd paraméter felett

A 0G és a China Mobile sikeresen betanított egy 107 milliárd paraméteres mesterséges intelligencia modellt decentralizált infrastruktúrán – ez az első alkalom, hogy egy 100 milliárd paramétert meghaladó modell egyetlen központi adatközpont igénybevétele nélkül készült el.

A 100 milliárd paraméteres határ áttörése

A modell 107 milliárd paramétere a valaha létrehozott legnagyobb MI-rendszerek közé helyezi, de a legfontosabb eltérés a képzés módjában rejlik. Ahelyett, hogy több ezer GPU-t egy helyen csoportosítottak volna, a 0G és a China Mobile elosztotta a számítási munkát független csomópontok hálózatán. Ez a megközelítés régóta ígéretes lehetőségként ismert a hardverköltségek csökkentésére és a hatalmas szerverfarmok energia- és hűtési igényeinek elkerülésére, ám a 100 milliárd paraméteres határ átlépése eddig elérhetetlennek tűnt.

Hogyan működik a decentralizált képzés

A decentralizált MI-képzés során a modell rétegeit és adatait több, interneten keresztül kommunikáló gép között osztják szét. A kihívás e gépek szinkronizálása – még egy kis késés vagy megszakadt kapcsolat is kisiklíthatja a teljes folyamatot. A vállalatok nem hozták nyilvánosságra a csomópontok pontos konfigurációját vagy a képzés időtartamát, de a mérföldkő arra utal, hogy megoldották a kommunikációs szűk keresztmetszetet, amely korábban a decentralizált modelleket kisebb méretekre korlátozta.

Mit jelent ez az iparág számára

A legtöbb nagy modellt – köztük az OpenAI GPT-4-ét és a Google Gemini-jét – központosított klaszterekben tanítják, amelyek építése és üzemeltetése több száz millió dollárba kerül. Egy decentralizált alternatíva csökkentheti a belépési korlátot a kisebb vállalatok és kutató laboratóriumok számára, amelyek nem engedhetik meg maguknak a saját szuperszámítógépeket. A China Mobile, a világ egyik legnagyobb távközlési szolgáltatója, olyan hálózati infrastruktúrával rendelkezik, amely segíthette az elosztott képzés koordinálását. A 0G, egy blokklánc-központú infrastruktúra-szolgáltató, a decentralizált számítási hálózatok terén szerzett szakértelmével járult hozzá.

A közvetlen kérdés, hogy ez a modell megismételhető vagy továbbfejleszthető-e. Sem a 0G, sem a China Mobile nem jelentett be tervet a modell nyílt forráskódúvá tételére vagy teljesítménytesztek közzétételére. E tesztek nélkül nem egyértelmű, hogy a 107 milliárd paraméteres modell hogyan teljesít a hasonló méretű központosított modellekkel szemben olyan feladatokban, mint az érvelés vagy a nyelvgenerálás. A következő lépés mindkét vállalat – és a tágabb decentralizált MI közösség – számára az lesz, hogy bizonyítsa: a megközelítés nemcsak egyetlen kísérletben működik, hanem megbízhatóan és még nagyobb léptékben is.

A 100 milliárd paraméteres határ áttörése

Hogyan működik a decentralizált képzés

Mit jelent ez az iparág számára

Related Articles