Firmy 0G i China Mobile z powodzeniem wytrenowały model sztucznej inteligencji o 107 miliardach parametrów, wykorzystując zdecentralizowaną infrastrukturę. To pierwszy przypadek, gdy model przekraczający 100 miliardów parametrów powstał bez potrzeby korzystania z jednego centralnego centrum danych.
Przekroczenie granicy 100 miliardów parametrów
Model z 107 miliardami parametrów plasuje się wśród największych systemów AI, jakie kiedykolwiek stworzono, ale kluczowa różnica polega na sposobie jego trenowania. Zamiast gromadzić tysiące procesorów GPU w jednym miejscu, 0G i China Mobile rozłożyły pracę obliczeniową na sieć niezależnych węzłów. To podejście od dawna postrzegano jako potencjalny sposób na obniżenie kosztów sprzętu i uniknięcie ogromnego zapotrzebowania na energię oraz chłodzenie w wielkich farmach serwerowych, ale do tej pory nie udało się osiągnąć skali przekraczającej 100 miliardów parametrów.
Jak działa zdecentralizowane trenowanie
Zdecentralizowane trenowanie AI polega na rozdzieleniu warstw i danych modelu na wiele maszyn komunikujących się przez internet. Wyzwaniem jest synchronizacja tych maszyn – nawet niewielkie opóźnienie czy przerwanie połączenia może zakłócić cały proces. Firmy nie ujawniły dokładnej konfiguracji węzłów ani czasu trenowania, ale to osiągnięcie sugeruje, że udało im się rozwiązać problem wąskiego gardła komunikacyjnego, które wcześniej ograniczało zdecentralizowane modele do mniejszych rozmiarów.
Co to oznacza dla branży
Większość dużych modeli – w tym GPT-4 od OpenAI i Gemini od Google – jest trenowana w scentralizowanych klastrach, których budowa i utrzymanie kosztują setki milionów dolarów. Zdecentralizowana alternatywa może obniżyć barierę wejścia dla mniejszych firm i laboratoriów badawczych, których nie stać na własne superkomputery. China Mobile, jeden z największych operatorów telekomunikacyjnych na świecie, dysponuje infrastrukturą sieciową, która mogła pomóc w koordynacji rozproszonego trenowania. 0G, dostawca infrastruktury blockchainowej, wniósł swoją wiedzę specjalistyczną w zakresie zdecentralizowanych sieci obliczeniowych.
Natychmiastowe pytanie brzmi, czy ten model można powielić lub ulepszyć. Ani 0G, ani China Mobile nie ogłosiły planów udostępnienia modelu jako open source ani opublikowania benchmarków wydajności. Bez tych testów nie wiadomo, jak model o 107 miliardach parametrów wypada w porównaniu ze scentralizowanymi modelami o podobnej wielkości pod względem zadań takich jak wnioskowanie czy generowanie języka. Kolejnym krokiem dla obu firm – i dla szerszej społeczności zdecentralizowanego AI – będzie udowodnienie, że to podejście działa nie tylko w pojedynczym eksperymencie, ale niezawodnie i na jeszcze większą skalę.




