В России1 мин.

Сбер открыл доступ к первой российской диффузионной языковой модели

GFusion ускоряет генерацию текста на 45%

© Ferra.ru

Сбер представил и опубликовал в открытом доступе диффузионную языковую модель GFusion, созданную на основе GigaChat. По данным разработчиков, это первая в России опенсорс-модель такого масштаба. Проект разработал инженер машинного обучения Даниил Тихонов, начавший работу над системой во время стажировки в команде фундаментальных моделей.

В отличие от классических больших языковых моделей, которые генерируют текст последовательно, GFusion сначала создает черновой вариант ответа, а затем поэтапно его уточняет. Такой подход позволяет генерировать текст до 45% быстрее GigaChat 3, а также эффективнее использовать ограниченные объемы данных при обучении и формировать сразу несколько частей ответа.

Вместе с GFusion опубликованы инструменты для ускорения обучения диффузионных моделей с меньшим количеством видеокарт. Также команда добавила поддержку новой модели и алгоритма генерации в открытый инструмент SGLang для запуска языковых моделей.

Источник:Сбер