Яндекс выпустил крупнейший набор данных для обучения ИИ-рекомендаций
© Ferra.ru
Основная задача публикации такого большого и подробного набора данных — ускорить развитие алгоритмов, которые помогают подбирать пользователям подходящий контент в онлайн-сервисах. Ранее существовавшие открытые датасеты были либо слишком малы, либо устарели, что ограничивало возможности ученых и разработчиков.
В состав Yambda входят агрегированные данные о прослушиваниях, лайках, дизлайках, а также некоторые характеристики музыкальных композиций. Все персональные данные пользователей полностью анонимизированы и представлены лишь в виде числовых идентификаторов, чтобы сохранить конфиденциальность.
Для удобства и гибкости работы с датасетом созданы три версии — от 50 миллионов до 5 миллиардов записей. Это позволяет разработчикам выбирать подходящий объем данных в зависимости от задачи и мощности оборудования.