基于LDA主题模型的文档推荐方法与流程

文档序号:31459168发布日期:2022-09-07 15:31阅读:来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术> 基于LDA主题模型的文档推荐方法与流程

技术特征:
1.一种基于lda主题模型的文档推荐方法,其特征在于,包括以下步骤:第一步、以文本数据为输入,输出训练好的主题模型,并将用户-主题分布矩阵、文档-主题分布矩阵和计算得到的用户-文档得分矩阵存储至内存;第二步、基于第一步按内容推荐文档。2.如权利要求1所述的方法,其特征在于,第一步具体为:(1)训练文本数据采用lda,以文本数据为输入,输出训练好的主题模型;(2)计算文档-主题分布文档导入时,通过所述主题模型计算得到其主题分布,即文档-主题分布,文档-主题分布矩阵中每一行代表一篇文档,每一列代表一个主题;(3)计算用户-主题分布当用户登录时,从数据库读取用户-主题分布,如果该用户是新用户,则判定用户对所有主题兴趣度一样,并初始化一个的所有值相等的主题分布,用户-主题分布矩阵中每一行代表一个用户,每一列代表一个主题;(4)计算用户-文档得分用户-文档得分矩阵由用户-主题分布矩阵和主题-文档分布矩阵计算得到:用户-文档得分矩阵=用户-主题分布矩阵
×
主题-文档分布矩阵其中,用户-文档得分矩阵中每一行代表一个用户对应各文档的得分,每一列代表一篇文档对应各用户的得分,主题-文档分布矩阵为文档-主题分布矩阵的转置;用户-文档得分是用户-文档得分矩阵中的一个元素,计算用户-文档得分考虑三个因素,分别为用户兴趣、浏览历史、文档热度,用户兴趣体现用户对不同主题的关注度,浏览历史记录用户曾经浏览过的文档,文档热度反映该文档在推荐系统中的火爆程度;将用户-文档得分矩阵中的每个用户-文档得分都加上sigmod(热度值),sigmod(热度值)是指对热度值进行sigmod归一化后的值;最后,根据用户兴趣与文档主题的相似度,综合考虑浏览历史、文档热度,遍历所有用户和文档,计算用户-文档得分;(5)存储结果至内存将用户-主题分布矩阵、文档-主题分布矩阵和最终计算得到的用户-文档得分矩阵存储至内存。3.如权利要求2所述的方法,其特征在于,第二步具体为:(1)计算搜索内容的主题分布获取用户在搜索框中输入的搜索内容,将该搜索内容看作一篇文档放入第一步中已训练好的主题模型中计算得到对应的主题分布;(2)更新用户-主题分布矩阵当用户对输入的搜索内容进行搜索时,则判定用户对本次搜索的主题感兴趣,此时进行用户兴趣的更新,其中将计算得到的搜索内容的主题分布加入到用户-主题分布矩阵中进行用户-主题分布矩阵更新,以此记录用户行为,并在下一次用户进行搜索时推荐用户更感兴趣的文档;(3)通过向量检索工具faiss查找相似向量
引用faiss,从内存中读取已计算好的文档-主题分布矩阵并将其放入faiss作为索引,在创建好包含文档-主题分布的索引后,将用户搜索内容的文档-主题分布当作搜索向量放入faiss中查找相似向量,通过faiss查找得到的相似向量为目标向量;(4)加权随机抽样,得到要推荐的文档通过faiss得到搜索向量与目标向量的距离d以及目标向量的索引,距离越近,则判定搜索向量与目标向量越相似,通过softmax对所有目标向量的距离进行归一化,转化为一组(0,1)之间并且和为1的数值,这些数值被当做每个目标向量被推荐的权重w:w=softmax(-d)假设要抽取n篇文档进行推荐,首先对目标向量的距离从小到大进行排序,然后截取前10n篇文档作为抽样的样本,最后通过加权随机无放回的抽样得到10n篇文档中的n篇文档。4.如权利要求2所述的方法,其特征在于,还包括第三步、基于第一步主动推荐文档。5.如权利要求4所述的方法,其特征在于,第三步具体为:(1)通过用户-文档矩阵获取推荐文档当用户登录系统时,从后端获取当前用户id,并从已保存在内存中的用户-文档得分矩阵中抽取出当前用户的文档及用户-文档得分,然后按得分从大到小的顺序排序,取前10n篇文档作为候选推荐文档;(2)加权随机抽样对每篇文档的得分进行归一化,从而得到每篇文档所对应的权重,然后通过加权随机无放回的抽样得到10n篇候选推荐文档中的n篇文档作为最终推荐文档。6.如权利要求2所述的方法,其特征在于,计算用户-文档得分时,对于每篇文档,浏览文件增加的热度值为1,收藏文件增加的热度值为3,下载文件增加的热度值为2。7.如权利要求2所述的方法,其特征在于,计算用户-文档得分时,每个用户-文档得分都加上sigmod(热度值)后,对于用户已浏览过的文档,最后扣除10%的得分。8.一种利用权利要求1至7中任一项所述方法实现的文档推荐系统。9.一种如权利要求1至7中任一项所述方法在文档推荐系统中的应用。10.一种如权利要求1至7中任一项所述方法在信息技术中的应用。

技术总结
本发明涉及一种基于LDA主题模型的文档推荐方法,属于信息技术领域。本发明使用了LDA主题模型将每个文档进行向量化,并输出该文档的主题概率,将推荐系统中的所有文档主题概率结合起来便能得到一个文档对主题的矩阵。另一方面,通过给新用户初始化来赋予每个用户一个主题概率,并使用户主题概率的维度与文档主题概率的维度保持一致,然后将所有用户主题概率结合起来得到一个用户对主题的矩阵。最后,通过用户和文档的两个主题概率矩阵,计算出用户对文档的兴趣值并将相应文档推荐给用户。这种推荐方法可以广泛运用在文档推荐系统中,并适用于各类文档。于各类文档。于各类文档。


技术研发人员:范昕煜 杨雨婷 王又辰 田宗凯 栾真
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:2022.05.23
技术公布日:2022/9/6
完整全部详细技术资料下载
当前第2页 1  2 
相关技术
  • 一种浅覆土接收盾构隧道环间压...
  • 一种高精度的二进制代码相似性...
  • 审稿人评分方法、推荐方法、装...
  • 一种基于模型适用性度量的分级...
  • 地图构建方法、装置和车辆与流...
  • 一种应用于活动策划的人员调配...
  • 一种流式地理轨迹数据的治理方...
  • 一种数据处理方法、装置、设备...
  • 一种面向数据异构性的联邦学习...
  • 基于注意力机制和多层LSTM...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

天下网标王恩施市网站关键词优化网站后台如何优化招远集团网站优化公司杭州萧山区seo网站优化培训网站关键词优化步骤新安最好的网站优化宝坻网站关键词优化咨询电话河北网站优化诚信企业推荐昆明网站关键词优化哪家好广州网站推广优化软件业务珠海专业的网站优化推广pc网站优化选哪家网站优化平台哪家大安丘网站如何做优化承德网站排名优化工具辽宁服务行业网站优化的优势宁波企业网站搜索引擎优化孝感网站优化怎么收费辽源网站优化青白江区网站优化软件日照专业网站优化哪家便宜南昌网站推广优化浙江优化网站排名价格延津网站优化报价网站优化如何提升排名深圳免费的网站优化哪家好网站优化应注意哪些贵州网站建设优化西安网站要怎么优化常德怎么做网站优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化