«Яндекс» выложил в открытый доступ датасет для рекомендательных систем


Компания «Яндекс» выпустила в открытый доступ один из крупнейших в мире датасетов для разработки и тестирования рекомендательных систем. Этот набор данных называется Yambda и создан на основе анонимных данных пользователей «Яндекс Музыки». Теперь ученые, исследователи и учебные заведения могут использовать Yambda для улучшения алгоритмов рекомендаций.


Датасет доступен в трех версиях: полная версия содержит 5 миллиардов записей о взаимодействиях, а также две уменьшенные версии — на 500 миллионов и 50 миллионов записей. Это позволяет разработчикам выбрать наиболее подходящий объем данных.

В открытых данных есть агрегированные показатели прослушиваний, лайков, дизлайков и характеристики треков. Это гарантирует анонимность пользователей и защиту их личных данных.

Yambda можно использовать для тестирования и улучшения рекомендательных систем в разных сферах: фильмы, музыка, товары, книги и другие рекомендации. По мнению экспертов, доступ к таким большим и качественным данным открывает новые возможности для научных исследований и привлечет молодых ученых в области машинного обучения и анализа данных.