«Яндекс» выложил в открытый доступ библиотеку YaFSDP собственной разработки
На Github разместили исходный код набора инструментов и методов разработки YaFSDP. Решение разработано «Яндексом» для обучения модели YandexGPT 3.
YaFSDP оптимизирует использование ресурсов графических процессоров (GPU) на этапах предварительного обучения и обучения с учителем, а также при выравнивании модели. Библиотека задействует ровно тот объем графической памяти, который нужен, в результате чего ускоряется сам процесс. Если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU уменьшилось бы с 66 дней до 53.
Библиотека может помочь бизнесу, разработчикам и исследователям снизить расходы на оборудование для обучения языковых моделей и других нейросетей, например, которые генерируют изображения.