从算法原理，看保举策略-巨人网络

从算法原理，看保举策略

POST TIME:2018-12-03 21:32

在信息量爆炸的今天，由于范式的转移，传统的内容和渠道已经不再是稀缺资源；在今天，将信息和内容更好更精准得呈现在用户面前，才是全方面提高效率的方式，真正的稀缺资源酿成了「推」和「拉」。而在这一切的背后，保举算法的作用都功不成没。

保举算法简介

目前的保举算法一般分为四大类：

协同过滤保举算法基于内容的保举算法混合保举算法流行度保举算法协同过滤的保举算法

协同过滤保举算法应该算是一种用的最多的保举算法，它是通过用户的历史数据来构建“用户相似矩阵”和“产品相似矩阵”来对用户进行相关item的保举，以达到精准满足用户爱好的目的。好比亚马逊等电商网站上的“买过XXX的人也买了XXX”就是一种协同过滤算法的应用。

基于内容的保举算法

基于内容的保举算法，是将item的名称、简介等进行分词处理后，提取出TF-IDF值较大的词作为特征词，在此基础上构建item相关的特征向量，再按照余弦相似度来计算相关性，构建相似度矩阵。

混合保举算法

混合保举算法很好理解，就是将其他算法保举的结果赋予差别的权重，然后将最后的综合结果进行保举的方法。

举例来说，好比上述已经提到了三种方式，协同过滤算法中的基于用户和基于item的协同过滤保举，和基于内容的保举算法；而混合保举算法中是将这三种保举结果赋予差别的权重，如：基于用户的协同过滤的权重为40%，基于item的协同过滤的权重为30%，基于内容的过滤技术的权重为30%，然后综合计算得到最终的保举结果。

流行度保举算法

这个很基础，看名字就知道了。这种方法是对item使用某种形式的流行度度量，例如最多的下载次数或购买量，然后向新用户保举这些受欢迎的item。就和我们平时经常看到的热门商品、热门保举类似。

浅析保举算法在实际中的应用

了解了大概原理后，就可以来看看在实际场景中，保举算法都是怎么使用的吧。（事先声明，这只是我看了相关东西再结合本身理解进去推测的，如果有说错的地方请各位千万放下手中的刀……）

好，下面开始，先说说协同过滤算法在实际中的应用。

协同过滤算法

协同过滤算法一般是怎么做的呢？我们先来看看在图书保举中的做法：

协同过滤（CF）大致可分为两类：一类是基于邻域的保举、一类是基于模型的保举；邻域方法是使用用户对已有item的喜爱程度来推测用户对新item的喜爱程度。与之相反，基于模型的方法是使用历史行为数据，基于学习出的预测模型，预测对新项的喜爱程度。通常的方式是使用机器学习算法，找出用户与项的彼此作用模型，从而找出数据中的特定模式。（由于基于模型的方法我也不太理解，暂时不展开说明，感兴趣的可以查阅相关资料）

【基于邻域的保举】–便是构建用户相似矩阵和产品相似矩阵

假设用户表示出了对一些图片的喜欢情况并进行了相应的评分，情况如下：

差别图书代表差别维度，评分则代表了特征向量在该维度上的投影长度，按照用户对差别图书的喜爱程度建立用户的特征向量，，然后按照余弦相似度可以判断用户之间的相似性。按照相似性可以建立用户相似矩阵：

很显然，通过按照用户对历史图书的评分情况，可以得到用户对其的喜恋爱况，在此基础上构建出用户特征向量，可以必然程度上判断两个用户在图书品味上的相似程度，进而我们可以认为，若A和B比较相似，可以认为A喜欢的书B也喜欢。

在给A用户进行图书保举时，找到与其相似度较高的其他用户，然后除去A用户已看过的图书，结合相似用户对某本图书的喜爱程度与该用户与A用户的相似度进行加权，得到的保举指数越高的图书优先进行保举。

这应该也是豆瓣等图书社区上使用的保举算法之一，利用用户之间的相似度来进行保举。当然，电影保举也同理。

同理，反过来我们可以根据相似的方位，以用户为维度来构建item的特征向量。当我们需要判断两本书是否相似时，就去看对这两本书进行过评价的用户构成是否相似，便是使用评价过一本书的用户向量（或数组）体现这本图书；也就是说，如果有两本书的评价中，用户重合度较高，即可认为该两本书相似度较高。其实借用的还是用户相似的基础。（《口语大数据与机器学习》中也提到过相似的保举算法，感兴趣的同学可以找来看一下）。

在音乐的保举中同样用到了协同过滤算法，我们众所周知的使用个性化保举的音乐app应该属「网易云音乐」比较典型了。

标签：东营盐城林芝九江乌鲁木齐