一种基于多目标优化的长尾群组推荐方法与流程

文档序号:13237372阅读:477来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于多目标优化的长尾群组推荐方法与流程

本发明属于推荐系统技术领域,尤其涉及一种基于多目标优化的长尾群组推荐方法。



背景技术:

随着大数据的快速发展,信息过载问题日益严重。推荐系统作为信息过滤的有效方式,在众多领域得到了广泛应用。现有的推荐算法从针对对象上来讲,主要针对单个用户设计,无法满足现实中的某些需要。比如,聚餐、看电影、旅行等一系列的行为通常是集体进行的,即以群组的形式发生。将推荐对象由单一用户扩展到多个用户,即群组推荐。由于其良好的应用前景,群组推荐受到越来越多工业界和学术界的关注。但群组推荐需要满足多个用户的偏好并对其进行融合,因此传统单用户下的推荐算法无法直接应用在群组推荐中。从目的上来讲,已有的群组推荐主要集中在如何满足用户偏好,提高推荐的准确度,而对推荐的多样性和新颖性方面关注较少。传统推荐为了提高推荐的准确度,推荐系统倾向于推荐一些流行的物品,对推荐系统来说还存在一定的不足。众多研究表明,长尾物品对推荐系统同样重要,对提高推荐结果的多样性和新颖性起到很好的作用。

综上所述,现有技术存在的问题是:现有的推荐系统对推荐的多样性和新颖性方面关注较少;现有的组推荐系统为了提高推荐的准确度,倾向于推荐一些流行的物品,无法满足用户对推荐系统的新颖性需求,导致用户对推荐结果不满意;解决此问题的难度在于如何在保持推荐准确度的同时,提高推荐结果的多样性,提高用户的满意度。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于多目标优化的长尾群组推荐方法。

本发明是这样实现的,一种基于多目标优化的长尾群组推荐方法,所述基于多目标优化的长尾群组推荐方法包括:

首先利用奇异值分解评分矩阵得到用户和物品的特征表示;

然后随机产生群组,基于相似度计算发现其代表群组,并结合用户和物品的特征进行群组偏好融合;

最后以满意度与流行度为两个目标,采用免疫算法优化候选列表并生成群组的最终推荐结果。可以产生不同准确度与流行度性权重的多个组推荐结果,供用户决策,满足用户对推荐结果多样性的需求。

进一步,所述群组的数据预处理包括:

选用矩阵分解的一个代表:奇异值分解表示为:

其中x,y是正交矩阵,σ是对角矩阵;用前k大的奇异值来近似描述矩阵;svd如下所示:

得到用户特征矩阵m和物品特征矩阵n,如以下公式所示:

其中,k是特征空间的维度;矩阵m和n的每一行分别代表对应用户和物品的特征向量。

进一步,所述群组发现过程为:

输入:随机输入k个用户的集合u;

输出:g群组;

foruseri,jfromu&&j≠ido;

sim[i][j]=s(u[i],u[j]);

endfor;

g←u;

oruserifromudo;

g←g-i;

endif;

endfor;

returng。

进一步,所述群组偏好融合的前提输入;通过用户和物品的特征相似性计算评估该用户对物品的偏好喜爱程度,获取用户的物品偏好序列;取每个用户最喜爱的前r个物品,组成临时物品集;根据不同物品出现的频率对该物品集划分阶级,依次加入候选集,直到候选集达到r个;最后加入的阶级根据均值融合策略做截断处理。

进一步,具体包括:

输入:群组g,用户特征矩阵m,物品特征矩阵n,候选集大小r;

输出:群组推荐的候选集r_list;

foruserifromgdo;

foritemjfromitemsdo;

gitem[i][j]=s(m[i],n[j]);

endfor;

temp←sort(gitem[i],descend);

gitemset←gitemset∪temp[1:r];

endfor;

f{k}←findcommon(gitemset);

r_list←r_list∪f{k};

if|r_list|>rthen;

r_list←r_list-f{i};break;

endif;

k++;

endwhile;

criticalitems←sort(f{k},descend);

i=1;

while|r_list|<r;

r_list←r_list∪criticalitems[i];

i++;

endwhile;

returnr_list。

进一步,所述免疫算法的优化过程具体包括:

(1)编码,每一个候选解是候选集r_list的子集;采用实数编码,每一个抗体以向量的形式表示一个推荐列表,形式如下:

x={x1,x2,...xl};

其中,l为推荐列表的长度。每一个xi是r_list中的一个元素,并且元素各不相同,保证同一物品在同一推荐列表中不能被推荐2次;迭代中的一组推荐列表组成抗体种群;

(2)亲和力度量,群组g中用户u和推荐列表r中物品i的相似度记为s(u,i),则群组中用户对推荐结果的满意度定义为:

函数f1计算了群组对推荐列表的平均相似度以衡量推荐的满意度;相似度越高代表物品越符合用户的偏好;采用余弦相似度计算,公式如下:

利用物品评分的均值与方差,物品i的流行度定义如下:

其中,μi代表物品i的评分均值,σi代表物品i的评分方差;物品越流行,m值越小;整个推荐列表中物品的流行度为:

长尾群组推荐的多目标问题设置如下:

max{f1(r),f2(r)};

亲和力是抗体的适应性度量;长尾群组推荐的多目标是max{f1(r),f2(r)},亲和力的度量就是计算max{f1(r),f2(r)};

(3)交叉,随机从候选集中选择其他元素进行替换,使候选解中元素彼此不同;

(4)变异算子采用单点变异,从候选集中挑选一个不属于x的元素随机替换xi形成新的x。

进一步,所述(4)具体步骤如下:

①初始化生成nm个抗体,种群p0,t=0;

②计算种群pt的抗体亲和力;根据帕累托占优,找出其中的占优抗体,记作占优种群dt;如果|dt|≤nm,则dt+1=dt,否则按拥挤距离排序,前nm个抗体组成dt+1;

③如果t≥gmax,算法结束,输出dt+1,否则t=t+1,执行④;

④如果|dt|≤na,则活动种群at+1=dt,否则按拥挤距离排序,前na个抗体组成at;

⑤按比例克隆at,组成大小为nc的克隆种群ct;

⑥ct以概率pc交叉,得到种群ct',ct'以概率pm变异,得到种群ct";

⑦合并种群dt和ct"组成种群pt,返回②。

本发明的另一目的在于提供一种使用所述基于多目标优化的长尾群组推荐方法的推荐系统。

本发明的优点及积极效果为:根据推荐列表的准确度要求和物品的长尾分布,将群组推荐建模成一个多目标问题。在群组推荐的多目标优化中,使用组内用户对推荐物品的满意度作为算法的目标一,使用推荐列表中物品的流行度作为算法的目标二;利用免疫智能算法,对提出的多目标推荐问题进行迭代优化;在一次的迭代过程中,可以产生不同准确度与流行度性权重的多个组推荐结果,满足不同用户的需求

本发明建模为一个多目标优化问题,并采用免疫优化算法进行求解。旨在满足群组对推荐列表满意度的基础上,提高推荐物品的长尾覆盖率,发挥长尾效益。

附图说明

图1是本发明实施例提供的基于多目标优化的长尾群组推荐方法流程图。

图2是本发明实施例提供的基于多目标优化的长尾群组推荐方法实现流程图。

图3是本发明实施例提供的交叉算子示意图。

图4是本发明实施例提供的变异算子示意图。

图5是本发明实施例提供的群组[151,198,2276,4921,5515]的帕累托前沿示意图。

图6是本发明实施例提供的不同群组大小的准确度情况示意图。

图7是本发明实施例提供的不同群组大小的多样性情况示意图。

图8是本发明实施例提供的不同群组大小的新颖性情况示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示,本发明实施例提供的基于多目标优化的长尾群组推荐方法包括以下步骤:

s101:利用奇异值分解评分矩阵得到用户和物品的特征表示;

s102:随机产生群组,基于相似度计算发现其代表群组,并结合用户和物品的特征进行群组偏好融合;

s103:以满意度与流行度为两个目标,采用免疫算法优化候选列表并生成群组的最终推荐结果。

下面结合附图对本发明的应用原理作进一步的描述。

本发明实施例提供的基于多目标优化的长尾群组推荐方法组推荐的数据来源一般包括:组成员行为历史、浏览记录、用户-项目评分等。本发明将用户集、物品集、用户-项目评分矩阵作为群组数据来源。表示如下:

(1)users={u1,u2,...,um},m个用户的集合;

(2)items={i1,i2,…,in},n个物品的集合;

(3)ratings={ru,iu∈users,i∈items},用户对物品的评分数据;

在ratings中,ru,i=0表示用户u尚未对物品i进行打分。

本发明主要由三部分组成:(1)群组数据的预处理;(2)群组发现与偏好融合;(3)多目标免疫优化推荐。算法流程如图2所示。

1.群组数据预处理

实际应用,评分矩阵相当稀疏。矩阵分解的推荐方法能够有效缓解评分数据稀疏问题。本发明选用的是矩阵分解的一个代表:奇异值分解(singularvaluedecomposition,svd),其主要思想可以形象化表示为:

其中x,y是正交矩阵,σ是对角矩阵。在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。故通常用前k大的奇异值来近似描述矩阵。svd如下所示:

由此得到用户特征矩阵m和物品特征矩阵n,如以下公式所示:

其中,k是特征空间的维度。矩阵m和n的每一行分别代表对应用户和物品的特征向量。

2.群组发现与偏好融合,根据用户的偏好动态发现群组。

算法随机产生一组用户作为待推荐群组,然后计算用户之间的相似度;根据用户之间的相似度关系,发现该组用户的代表群组。具体的群组发现过程如算法1所描述。

在以上算法中δ为相似度的门限值,相似度计算s(u,i)采用余弦相似度。

群组发现后,对不同的偏好进行融合非常重要。融合策略有公平策略、均值策略、痛苦避免策略、最小痛苦策略、最开心策略等不同方法。本发明中采用最常用的均值策略进行偏好融合。首先群组偏好融合的前提输入是用户的物品偏好序列。通过用户和物品的特征相似性计算评估该用户对物品的偏好喜爱程度,获取用户的物品偏好序列。取每个用户最喜爱的前r个物品,组成临时物品集。根据不同物品出现的频率对该物品集划分阶级,依次加入候选集,直到候选集达到r个;最后加入的阶级根据均值融合策略做截断处理。具体算法如下:

3.多目标免疫优化

对上面生成的组推荐列表,考虑物品的长尾效应,使用免疫优化算法进行优化,得到用户满意度和物品流行度均衡的推荐结果。

免疫智能作为一种仿生学算法,在解决多目标优化问题上取得了很好的效果。主要模拟生物免疫系统的免疫识别和免疫应答,其中优化问题及其约束被认为是抗原,目标问题的候选解被认为是抗体。免疫算法通过克隆,突变和选择操作的迭代以达到亲和力的成熟获得最优解。

(1)编码

抗体代表群组推荐中的候选解。每一个候选解都是候选集r_list的子集。本发明采用实数编码,易于理解和执行后面的免疫操作。每一个抗体以向量的形式表示一个推荐列表,形式如下:

x={x1,x2,…xl};

其中,l为推荐列表的长度。每一个xi是r_list中的一个元素,并且元素各不相同,保证同一物品在同一推荐列表中不能被推荐2次。迭代中的一组推荐列表组成抗体种群。

(2)亲和力度量

与传统组推荐类似,群组推荐首先要尽量满足群组中所有用户的偏好,提高群组推荐结果的准确性。设群组g中用户u和推荐列表r中物品i的相似度记为s(u,i),则群组中用户对推荐结果的满意度定义为:

函数f1计算了群组对推荐列表的平均相似度以衡量推荐的满意度。相似度越高代表物品越符合用户的偏好。其中,采用余弦相似度计算,公式如下:

本发明将长尾效应考虑在内,提高推荐的新颖性。由于长尾物品很少被评分,而流行的物品会受到广泛评价。通常的作法是基于评分数量来判定流行度。但是依靠评分数量对很多评分相同的物品并不合适。最恰当测量流行度的办法是利用物品评分的均值与方差。设物品i的流行度定义如下:

其中,μi代表物品i的评分均值,σi代表物品i的评分方差。物品越流行,m值越小。则整个推荐列表中物品的流行度如下所示:

长尾群组推荐的多目标问题设置如下:

max{f1(r),f2(r)};

亲和力是抗体的适应性度量。本发明长尾群组推荐的多目标是max{f1(r),f2(r)},所以亲和力的度量就是计算max{f1(r),f2(r)}。

(3)交叉

传统的单点交叉会造成,x中的元素重复。为了避免这一情况,本发明中做了如下变化,如图3所示。x1,x2在6th单点交叉产生y1,y2。但是,y1中3th和9th元素相同,y2中5th和7th元素相同。对此,随机从候选集中选择其他元素进行替换,使候选解中元素彼此不同。

(4)变异

变异算子采用单点变异,从候选集中挑选一个不属于x的元素随机替换xi形成新的x。如图4所示,概率选择3th元素进行单点变异。

具体步骤如下:

①初始化生成nm个抗体,即种群p0,设t=0。本发明根据偏好融合后得到的候选集r_list,生成初始化的抗体种群。

②计算种群pt的抗体亲和力。根据帕累托占优,找出其中的占优抗体,记作占优种群dt。如果|dt|≤nm,则dt+1=dt,否则按拥挤距离排序,前nm个抗体组成dt+1。

③如果t≥gmax,算法结束,输出dt+1,否则t=t+1,执行步骤4。

④如果|dt|≤na,则活动种群at+1=dt,否则按拥挤距离排序,前na个抗体组成at;

⑤按比例克隆at,组成大小为nc的克隆种群ct;

⑥ct以概率pc交叉,得到种群ct',ct'以概率pm变异,得到种群ct";

⑦合并种群dt和ct"组成种群pt,返回步骤2。

下面结合实验对本发明的应用效果作详细的描述。

为了验证该方案的有效性,在数据集movielens上对随机群组进行实验。数据集movielens包含了来自6,040个用户对3,952部电影的1,000,209条评分,且所有的评分都是[1,5]之间的整数。实验中,将数据集分成2份,80%作为训练集,20%作为测试集。以准确性、多样性和新颖性来进行评价本发明。具体评价指标如下:

(1)准确度

准确度是推荐系统的一个重要指标。衡量推荐列表中与目标用户相关的物品占比,定义如下表示:

其中,r是系统的推荐列表,t是测试数据集中与用户相关的物品集合。在本发明中,如果用户对某个物品的评分大于等于3,则认为该物品与此用户相关。对于群组的准确度,则先计算每个用户的准确度,再取其平均作为群组的准确度。p(r)值越大,则代表推荐结果的准确度越高。

(2)多样性

多样性是用来衡量推荐列表中物品之间的差异性。通常使用jaccard相似系数来计算两个项目之间的类型相似度,然后通过计算整个推荐列表之间的类型相似度来评价推荐结果的多样性。假设a,b代表两个物品,则jaccard相似系数可以如下表示。值越大,相似度越高。

则推荐列表r的多样性可以表示为:

其中j(ri,rj)代表物品ri和rj之间的类型相似度。

(3)新颖性

新颖性是对推荐列表不流行程度的一个评价指标。新颖性值越小表示越能挖掘更多的长尾物品。公式化表述如下:

其中,di代表推荐列表中第i个物品的度,通常di是对该物品有评分行为的用户个数。新颖度的值越低,越倾向于推荐不流行的物品,即推荐的物品越处于长尾曲线的尾部。

本发明在数据集movielens上随机产生不同大小的群组验证推荐效果。下面以组大小为5进行说明。首先根据前面的群组发现和偏好算法,得到群组[151,198,2276,4921,5515],然后利用免疫多目标进行优化。如图5所示为该群组迭代得到的帕累托前沿。横纵坐标分别衡量组内用户对推荐物品的满意度和推荐列表中物品的流行度。图中的每个点代表一个推荐列表。

从图5可以看出,在一次的迭代过程中,算法产生不同满意度与流行度权重的多个组推荐结果。其中a点(0.129,926.75),x值最小,y值最大,表示点a满意度最低,但物品更处于长尾的尾部;反之b点(0.234,101.88),x值最大,y值最小,表示点b满意度最高,但物品更偏向于长尾头部。

表1选其中一组推荐列表为例,展示了各成员与群组整体的准确度、多样性、新颖性情况。对于对群组中少数用户如5515准确度为0,但大多数用户准确度为0.2~0.3,群组整体的准确度达到0.2。推荐列表的多样性与新颖性良好,分别为0.104、241.34。

表1群组准确度、多样性与新颖性情况

图6、图7、图8分别展示了不同群组大小时的准确度、多样性和新颖性。

结果表明,算法在群组大小为2的时候准确度最高,随着成员的增多,准确度有所下降。这是因为成员越多,不同的偏好越难满足,因此,在理论上是合理的。而多样性与新颖性基本不受群组大小的影响,保持相对稳定。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 基于实时电价的短期负荷预测方...
  • 用于加速神经网络处理器的方法...
  • 一种多阀值反馈人工神经元的设...
  • 一种FPGA实现残差网络中激...
  • 一种Softmax层的设计方...
  • 组合式保密U盘装置的制作方法
  • 互锁U盘的制作方法
  • 一种带有按键解锁的加密U盘的...
  • 芯片卡模块和用于制造芯片卡模...
  • 一种基于RFID的电子内飞及...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

天下网标王五金网站seo优化效果企业网站做seo优化网站优化是优化网站怎么选取合适的关键词宁波优化网站经销商珠海靠谱网站优化快速排名泉州网站seo优化公司网站网页的优化方法深圳网站自动优化辽宁省网站优化加盟怎么优化网站并发访问上海专业网站优化案例郑州营销网站快速排名优化搜索引擎的网站优化宿州优化网站哪家专业奉贤区企业网站优化平台内江网站排名优化公司双流区网站seo优化排名网站优化类毕业设计任务书专科卫辉网站搭建优化江门百度网站快速优化汉川市网站做优化代理加盟临沂吉安营销型网站优化营销嘉义网站优化网站制作优化哪个公司好招聘网站的简历优化有用网站自然排名优化方案家具网站seo优化咨询网站搜索排名优化选举易速达上海网站优化排名网站香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化