文档首页 > > 最佳实践> 专属版> 电影推荐> 业务场景介绍

业务场景介绍

分享
更新时间: 2019/07/05 GMT+08:00

场景描述

近几年,随着电影技术的发展,电影已经成为人们日常消遣娱乐放松的主要方式之一,人们在观看完电影后,通常会对一部电影进行评价,因此会产生大量的和电影评价相关的数据集。那么如何对已有的数据进行分析,向用户准确推荐他们感兴趣的电影,正是我们需要解决的问题。

本次业务场景为:某电影票团购公司有大量观众对电影评分的数据。该公司希望利用这些历史数据,分析某些用户对未做评分的电影感兴趣程度(评分),根据分析结果(评分等级),向感兴趣用户准确推荐新上线的电影。

数据说明

本次业务场景的模拟数据来自MovieLens,地址为https://grouplens.org/datasets/movielens。数据集包含了51093名用户对其中29200名电影的评价数据,共计646675条数据(该数据集还在不断的扩充当中),部分样本数据如表1。数据集包含3列特征,分别是user(观众ID)、item(电影ID)和rating(评分等级)。其中,评分等级分为0至10分,11个等级,相关的元数据结构如表2

表1 部分样本数据

user

item

rating

461

996

2

996

999

3

299

18

2

191

19

4

601

18

3

99

19

4

692

18

4

216

19

2

531

524

2

表2 元数据结构

名称

类型

衡量

角色

user

Integer

Continuous

[1,51093]

Input

item

Integer

Continuous

[8,7359702]

Input

rating

Real

Nominal

[0,10]

Target

根据业务场景描述,我们对数据集做如下处理:

  • 从上述数据集中选取5个样本作为待分析的数据集。该数据集包含5个用户ID,某个电影ID(ID为417),和评分结果rating。数据集如表3,并保存为“new_data.csv”
  • 剩余的样本构成的数据集,作为团购公司手头上已有的历史客户数据,并保存为“movie_ratings.csv”
表3 待预测数据集

user

item

rating

37847

417

10

44672

417

8

38298

417

7

19113

417

7

29554

417

7

那么,该业务场景的问题可理解为:

某电影团购公司手头上有大量历史客户数据“movie_ratings.csv”,他们希望利用机器学习服务,预测某5位观众对该电影(ID为417)的评分。并对评分大于8的观众,推送该电影上线信息。

解决方案

通过问题描述可知这是一个电影的推荐问题,因此可以用“交替最小二乘”算法来分析处理:

  • 交替最小二乘(Alternating Least Squares)

    在机器学习中,ALS 指使用交替最小二乘求解的一个协同推荐算法。该方法常用于基于矩阵分解的推荐系统中。它通过观察到的所有用户给电影的打分,来推断每个用户的喜好并向用户推荐适合的电影。可以使用MLS创建包含“交替最小二乘”算子的工作流进行分析处理,最终输出模型,进行保存。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区