2018年10月09日阅读 11

【火炉炼AI】机器学习033-构建电影推荐系统

(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

电影推荐系统内部最关键的部件是推荐引擎，和汽车的发动机一样，推荐引擎的作用是产生数据动力，提供数据计算方案。从本质上说，推荐引擎时一个能预测用户兴趣点的模型。对于不同的具体项目要求，推荐引擎也是不一样的，本文主要介绍专门用于电影推荐系统的推荐引擎构建方法。

推荐引擎非常重要，比如在电商网站中，经常有庞大的商品目录，而用户不太可能查找所有的相关内容，这时候就需要推荐引擎来构建合适的推荐系统，将用户可能感兴趣的商品推荐到用户页面。我们经常在购物中看到，你点击了笔记本电脑的页面，系统会给你推荐鼠标，键盘等商品，其内部就是使用了推荐引擎。

1. 寻找数据集中的相似用户

推荐引擎的一个非常重要的任务是寻找相似的用户，这样，为一位用户生成的推荐信息也可以推送给与之相似的其他用户。

下面用代码来查找与特定用户相似的其他用户，用到了上一篇文章中的Pearson 相关系数计算函数。下面代码的思路是：首先判断user是否存在dataset中，然后计算user对所有其他user的相关系数，放置到一个list中，然后再对这个list进行逆序排列，取最前面的K个用户，即可找到与user最相似的K个用户。

def find_similar_users(dataset, user, user_num=3):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    # 对于所有用户，计算其与user的相似度，此处使用Pearson相关性
    scores=np.array([[other_user,pearson_score(dataset,user,other_user)] for 
                         other_user in dataset if other_user!=user])
    # 相关性都存放在scores这个二维矩阵中，故而可以通过排序来寻找相似用户
    scores_sorted=np.argsort(scores[:,1])[::-1] # 先排序取坐标，再逆序
    # 获取最前面的user_num个相似用户
    top_users=scores_sorted[:user_num]
    return scores[top_users] # 返回这些user的信息

复制代码

通过导入movie_ratings数据后，计算与John Carson最相似的4个用户，如下：

# 使用电影数据来寻找相似用户
import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
similar_users=find_similar_users(dataset, user, 4)
print('Users similar to {}---->>>'.format(user))
print('User\t\t\tSimilarity Score\n')
for item in similar_users:
    print('{}\t\t{}'.format(item[0],round(float(item[1]),3)))
复制代码

-------------------------------------输---------出------------------

Users similar to John Carson---->>> User Similarity Score

Michael Henry 0.991 Alex Roberts 0.747 Melissa Jones 0.594 Jillian Hobart 0.567

--------------------------------------------完----------------------

2. 创建电影推荐引擎

假设我们现在有多个用户对某几部电影的评价分数，那么怎么构建一个电影推荐引擎？给那些已经看过一部分电影的用户推荐其他没有看过的但是很相关的电影？

这些电影评分数据都存放在movie_ratings.json文件中，这个文件的第一个层是用户名，第二层是电影名称和该用户给该电影的评分。给用户A推荐电影的内在逻辑是，先找出与用户A相似度比较高的多个用户，然后找出这些相似用户已经评分过但是用户A没有评分的电影集合，这些电影表示用户A没有看过但是其他相似用户看过，我们推荐的电影就从这个电影集合中选取，那么怎么选取了？需要构建一个选取标准，此时我们可以计算电影推荐分数，该分数用相似度和电影评价分数相乘得到。可以认为，相似度越高的用户，其看过的电影越推荐，这些用户评分越高的电影，表示质量越高，越要推荐给用户A.

基于以上逻辑，编写的代码如下：

# 创建电影推荐引擎
def get_recommendations(dataset,user):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    total_scores={} # 存放的key为电影名称，value为对该电影的评价乘以相似度
    similarity_sums={} # 存放的key为电影名称，value为相似度
    for other_user in dataset:
        if other_user ==user: continue  # 确保是其他用户而非自身
        similarity_score=pearson_score(dataset,user, other_user) 
#         print('other user: ', other_user, 'similarity: ', similarity_score)
        if similarity_score<=0: continue # 如果相似度太小则忽略
        
        # 找到还未被该用户评分,但是却被other_user评分过的电影
        # 这部分电影表示相似的other_ser已经看过但是user没有看过的电影，


    

        # 推荐的电影肯定来自于这部分
        user_not_rating_movies=[]
        for movie in dataset[other_user]: # other_user评分过的电影
#             if movie not in dataset[user] or dataset[user][movie]==0: 
            if movie not in dataset[user]: 

                # 但是user没有评分过，或者user评分为0(是不是系统认为没有评分那评分就是0）)
                user_not_rating_movies.append(movie)
#         print(user_not_rating_movies)
        # 计算这些user没有评分过的电影的推荐分数，
        # 推荐分数此处用该电影的评价乘以相似度表示
        for movie in user_not_rating_movies:
            recommend_score=dataset[other_user][movie]*similarity_score
            total_scores.update({movie: recommend_score})
            similarity_sums.update({movie: similarity_score})
#         print('other user: ', other_user, 'total_scores: ', total_scores)
    # 判断total_scores，如果推荐的总数为0，表示所有电影都被user评价过，则不推荐
    if len(total_scores) ==0: return [[0,'No Recommendations']]
    
    # 计算每个电影的推荐等级
    movie_ranks=np.array([[rec_score/similarity_sums[movie],movie] for 
                         movie, rec_score in total_scores.items()])
    # 对第一列进行逆序排列
    movie_ranks_desc=movie_ranks[np.argsort(movie_ranks[:,0])[::-1]]
#     print(movie_ranks_desc)
    return movie_ranks_desc
复制代码

最后计算一下几个用户的推荐的电影列表，如下：

import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

user='Michael Henry'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

复制代码

-------------------------------------输---------出------------------

Recommended movies to John Carson---->>>
0: No Recommendations-->recommend score: 0
Recommended movies to Michael Henry---->>>
0: Jerry Maguire-->recommend score: 3.0
1: Inception-->recommend score: 3.0
2: Anger Management-->recommend score: 2.0

--------------------------------------------完---------------------

########################小**********结###############################

1，构建电影推荐系统一般有几个步骤：先找出相似用户，然后找出相似用户看过的电影而用户A没有看过的电影，最后对这些电影建立一种推荐分数，其分数越高的越值得推荐，最后对这些分数逆序排列，即可得到推荐列表。

2，关键是要搞清楚推荐逻辑，并建立推荐算法，这些算法可能会随实际应用场景不同而不同。

#################################################################

注：本部分代码已经全部上传到（我的github）上，欢迎下载。

参考资料:

1, Python机器学习经典实例，Prateek Joshi著，陶俊杰，陈小莉译

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/GOIeFMVrYd