Сбер открыл доступ к первой российской диффузионной языковой модели
GFusion ускоряет генерацию текста на 45%Сбер представил и опубликовал в открытом доступе диффузионную языковую модель GFusion, созданную на основе GigaChat. По данным разработчиков, это первая в России опенсорс-модель такого масштаба. Проект разработал инженер машинного обучения Даниил Тихонов, начавший работу над системой во время стажировки в команде фундаментальных моделей.
© Ferra.ru
В отличие от классических больших языковых моделей, которые генерируют текст последовательно, GFusion сначала создает черновой вариант ответа, а затем поэтапно его уточняет. Такой подход позволяет генерировать текст до 45% быстрее GigaChat 3, а также эффективнее использовать ограниченные объемы данных при обучении и формировать сразу несколько частей ответа.
Вместе с GFusion опубликованы инструменты для ускорения обучения диффузионных моделей с меньшим количеством видеокарт. Также команда добавила поддержку новой модели и алгоритма генерации в открытый инструмент SGLang для запуска языковых моделей.
Источник:Сбер
Автор:Ингела Воробьева