Компанії 0G та China Mobile успішно навчили модель штучного інтелекту зі 107 мільярдами параметрів, використовуючи децентралізовану інфраструктуру. Це перший випадок, коли модель, що перевищує 100 мільярдів параметрів, була створена без опори на єдиний централізований дата-центр.
Подолання бар'єру в 100 мільярдів параметрів
107 мільярдів параметрів моделі ставлять її в один ряд із найбільшими системами ШІ, які коли-небудь створювалися, але ключова відмінність полягає в тому, як її навчали. Замість того, щоб об'єднувати тисячі графічних процесорів (GPU) в одному місці, 0G та China Mobile розподілили обчислювальну роботу між мережею незалежних вузлів. Такий підхід давно розглядався як потенційний спосіб знизити витрати на обладнання та уникнути енергетичних і охолоджувальних потреб великих серверних ферм, але масштабування понад позначку в 100 мільярдів параметрів досі залишалося недосяжним.
Як працює децентралізоване навчання
Децентралізоване навчання ШІ розподіляє шари та дані моделі між багатьма машинами, які спілкуються через інтернет. Складність полягає в синхронізації цих машин — навіть невелика затримка або збій з'єднання може зірвати весь процес. Компанії не розкрили точну конфігурацію вузлів або тривалість навчання, але це досягнення свідчить про те, що вони вирішили проблему комунікаційного вузького місця, яке раніше обмежувало децентралізовані моделі меншими розмірами.
Що це означає для індустрії
Більшість великих моделей, зокрема GPT-4 від OpenAI та Gemini від Google, навчаються в централізованих кластерах, які коштують сотні мільйонів доларів на створення та експлуатацію. Децентралізована альтернатива може знизити бар'єри для менших компаній і дослідницьких лабораторій, які не можуть дозволити собі власні суперкомп'ютери. China Mobile, один із найбільших телекомунікаційних операторів у світі, надав мережеву інфраструктуру, яка, ймовірно, допомогла координувати розподілене навчання. 0G, постачальник інфраструктури на основі блокчейну, вніс свій досвід у децентралізованих обчислювальних мережах.
Нагальним питанням є те, чи можна повторити або вдосконалити цю модель. Ні 0G, ні China Mobile не оголосили про плани зробити модель відкритою (open-source) або оприлюднити показники продуктивності. Без цих тестів незрозуміло, як модель зі 107 мільярдами параметрів порівнюється з централізованими моделями аналогічного розміру в таких завданнях, як міркування чи генерація мови. Наступним кроком для обох компаній, а також для ширшої спільноти децентралізованого ШІ, буде доведення того, що цей підхід працює не лише в рамках одного експерименту, а надійно та на ще більших масштабах.




