moba,机器不学习:从用户行为去理解内容-item2vec及其使用,经

在内容引荐体系里不丹,一个常用的办法是经过了解内容(发掘内容特点)去发掘用户的爱好点来构建引荐模型。从大多数事务的作用来看,这样的模型是有用的,也就是说用户行为与内容是相关的。不过有一点常被疏忽的是:相关性是对称的!这意味着假如能够从moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经内容特点去moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经了解用户行为,猜测用户行为,那么也能够经过了解用户行为去了解内容,猜测内容特点。

运用汉逆之吕布新传行为数据生成内容向量

引荐体系里咱们一向有根据用户行为去了解内容,典型的比如是根据用户行为结构内容特征,例如内容的点击率、内容的性别倾向,内容的年学化装龄倾向等。这样的了解是浅层的,仅仅是一些简略的核算。咱们其实有更好的办法能够构建内容特征,它的第一步是运用用户行为将内容转化为向量,下面会以运用宝事务为例解说运用用户行为将app转化为向量的思路。

从直觉上来看,用户下载app的先后联系是相关的,以图1的行为数据为例,一个用户之前下载过街头篮球,那么他接下来会下载体育类app的概率会比他接下来下载时髦类app的概率更大。也就是说 P(腾讯体育|街头篮球)>P(唯品会|街头篮球)

到这儿咱们现已大致介绍了运用用户行为将内容转化为向量的办法,这儿really将这种技能称作item2vec。以运用宝为例,它的item是app,它的实践应徐少强用也能够称作app2vec。

内容向量聚跑得快类

根据运用宝已有的类别体系调查,能够显着区分隔角色扮演类游戏app和理财app

也能够发现一些没有参加类别体系的特别app集体

now直播事务也根据该办法进行了生成了主播向量并对主播进行了聚类,开始成果来看是聚类是能够显着区分隔男女主播的,而且也发现了几个风趣的主播类型,例如直播玩王者的主播,同人小说直皮郛之下播电影电视剧的主播,直播农村生活的主播,其主播id及描绘如下,感爱好的同学能够下载now直播搜一下看看:

229094658 吃鸡 + 王者荣耀

214471564 王者荣耀

130552418 王者荣耀

130347855 王者荣耀

109760879 王者荣耀

12983moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经9027 直播电视剧 胡军版天龙八部

116206227 直播电影 李连杰版黄飞鸿

129842270 直播电视剧 战士突击

129857689 直播电视剧 亮剑

116202620 直播电影 林青霞

93341095 野外(poke农村生活)

115982309 野外(农村生活)

71264701 野外(农村生活)

128859451 野外(农村生活)

115056840 野外(农村生活)

根据内容向量的分类模型(打标签模型)

内容向量在运用宝app分类打标签上的运用

运用宝的app分类(打标签)场景长期以来都存在这样的痛点:

1. 分类体系常常会面对变化

2. app的人工标示本钱高,杂乱标签体系下app的标示数据很少,大多数标签仅有几个标钱琳琳注数据小桥流水人家

3. app归于杂乱数据结构的内容,它的内涵难以鲁伯特之泪用已有的算法进行发掘,曩昔只能经过它的描绘和图片来发掘其信息

这儿咱们ios科学上网可蜀山战纪以先考虑一个问题:为什么要给app做分类和打标签?

答:给app做分类和打标签实践上是为了让用户能够更便利的找到自己想要的app,为了让咱们能够更容易地结合用户爱好给用缆组词户推送app。

从问题和答案咱们能够得出一个定论:给app做分类和打标签有意义的条件是用户的行为是和app的类别、标签相关的!例如下面的这个比如里,第一位用户喜爱下载纸牌类游戏,第二位用户喜爱下载跑酷类和儿童类游戏,第三位用户喜爱下载休闲类游moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经戏。

上面的剖析咱们知道用户行为应该能够用于判别app的类别标签。因而在给运用宝的app进行分类和打标签时,咱们引入了根据用户行为生成的app向量。详细结构可看下图:

经过添加app向量作为分类模型的特征,能够很大程度上进步app分类的准确度(趋市明能够参阅聚类中的比如),在实践事务中,部分标签的分类准确度可由40%进步到90%,全体来moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经说准确率和掩盖度都有大幅度提高。

根据京东产品类别数据的item2vec分类模型阿凡提的故事试验

这儿贴一下根据京东产品类别数据做的小试验。

  1. 试验数据:京东产品一级类别,共33个类别,44776个产品,随机抽取其间80%作为练习,20%作为测验集
  2. 模型:one vs rest Logistic Regression
  3. 成果: 练习accuracy 0.879 测验accuracy 0.859

下图是将产品向量降维到3维后的龙星凉产品空间分布图,不同色彩表明不同类其他产品,直观上看不同类其他产品在空间上的方位是不同的。

根据内容行为向量的引荐召回

直观的比如是相关引荐,由于这一场景一般不会对召回成果做太多的加工。常见的召回成果生成办法是先核算item与item之间的类似度(一般运用cosine类似度),再取其间的top n类似imoba,机器不学习:从用户行为去了解内容-item2vec及其运用,经tem。参阅文献【2】中Pinterest便运用了这种办法进行了相关引荐,其实践体会如下:

在运用宝两个场景中做了根据item行为向量的召回战略并moba,机器不学习:从用户行为去了解内容-item2vec及其运用,经进行了测验,相对于原模型有显着的作用提高(详细作用不方便贴出,请读者体谅)。

根据内容行为向量的语义召回

在app查找场景测验根据行为数据生成查找词向量来优化了语义召回,显着增强了词的含糊匹配才能。举一个更直观的比如,吃鸡游戏出来的时分,查找吃鸡出来的都不是吃鸡游戏,可是对此感爱好的用户后续仍是会去找到正确的查找词,例如之后查找“荒野举动”,或是下载了“荒野举动”,根据这些行为,能够将“吃鸡”和“荒野举动”相关起来。下图是单纯根据用户行为的查找词召回:

直接作为深度学习引荐模型的输入特征

大致的思路是经过对用户有过行为item向量求均值得到用户的固定维度user特征,然后作为输入层的输入。YouTube的论文里证明了这种办法的有用性,下图是YouTube的引荐体系计划,概况可看参阅文献【3】。

参阅文献

【1】《 word2vec Parameter Learning Explained 》

【2】《 Related Pins at Pinterest: The Evolution of a Real-World R顽强ecommender System 》

【3】《Deep Neural Networks for YouTube Recommendations 》

原文发布于微信大众号 - 腾讯文曲星(tencent_wisdom)