LDA简要介绍

5 篇文章 0 订阅
订阅专栏
5 篇文章 0 订阅
订阅专栏

前情提要

这里只列出与之有关的数学公式,并不做具体的推导与其背后的数学故事。如果感兴趣的朋友可以看看LDA数学八卦,里面有完整的故事背景和数学证明。

gamma函数:
其数学形式为:
在这里插入图片描述
如果对其做分部积分,我们有如下性质:
在这里插入图片描述
易知:
在这里插入图片描述
Dirichlet分布:
其数学形式如下:
在这里插入图片描述
对于给定的 p ⃗ \vec p p N N N,定义多项分布为:
在这里插入图片描述
而上述这两个分布是共轭关系

Dirichlet 分布的一个性质:
在这里插入图片描述
上面的内容不懂也没有关系,只需要在用到的时候过来查阅便好,这里列出只是方便查阅。

吉布斯采样:
这部分内容与LDA的训练过程有关。我在博客 MCMC和Gibbs Sampling中对其进行了详细的介绍。不清楚的朋友可以看到训练过程后,再看这篇博客。

PLSA

说到LDA,不得不先介绍一下PLSA,PLSA的基本思想是,假设一篇文章有多个topic,每个topic生成语料库中词的概率不同。
因此不难看出,这是一个词袋模型,我们把生成的过程分为两个部分,一个是doc->topic,另一个是topic->word
假设我们有 K K K个topic:

  • 每个topic,对应一个生成word的概率分布,将其记为 φ k \varphi_k φk,其中k代表第k个topic
  • 对于包含M篇文档的语料 C = ( d 1 , d 2 , ⋯   , d m ) C=(d_1,d_2,\cdots,d_m) C=(d1,d2,,dm),对其中的任一文档都有doc-topic的概率分布,记为 θ m \theta_m θm

对文档 d m d_m dm生成每个词的概率为:
在这里插入图片描述
所以整篇文档生成的概率为:
在这里插入图片描述
同样地,可以写出整个语料库的概率,并使用EM算法得到其局部最优。

LDA

可以看出,PLSA是频率学派的作品,贝叶斯学派对此持不同意见。在贝叶斯学派看来,随机变量应该属于某种先验分布,即 φ \varphi φ θ \theta θ应该是要满足先验分布的。而我们知道, φ \varphi φ θ \theta θ本身是多项分布,那么由于狄利克雷与多项分布的共轭性,其先验分布自然选狄利克雷分布。其物理过程如下图所示:
在这里插入图片描述
因此,我们将这个过程拆分为两个物理过程理解,

第一步:
α ⃗ → θ ⃗ m → z ⃗ m \vec \alpha \rightarrow \vec \theta_m \rightarrow \vec z_m α θ mz m
在这里插入图片描述
可以看出,整体是一个Dirichlet-Multinomial共轭结构。因此有:
在这里插入图片描述

如果有先验分布得到 p ⃗ ← D i r ( p ⃗ ∣ α ⃗ ) \vec p \leftarrow Dir(\vec p|\vec \alpha) p Dir(p α ),且 p ⃗ \vec p p 满足多项式分布。那么如果使用该概率分布生成整个语料,我们有:
在这里插入图片描述

进一步地,由于共轭性,我们有 θ ⃗ m \vec \theta_m θ m满足后验分布:
在这里插入图片描述
由于M篇文档的所有topics相互独立,所以我们有m个相互独立的Dirichlet-Multinomial共轭结构:
在这里插入图片描述
第二步:
β ⃗ → φ ⃗ k → w ⃗ k \vec \beta \rightarrow \vec \varphi_k \rightarrow \vec w_k β φ kw k
在这里插入图片描述
同样的,我们有:
在这里插入图片描述
其中, φ ⃗ k \vec \varphi_k φ k的后验概率为:
在这里插入图片描述
而语料中的K个topic生成word同样是相互独立的,因此我们有K个相互独立的Dirichlet-Multinomial共轭结构,从而可以得到整个语料库中的所有词生成概率:
在这里插入图片描述
那么,结合(26)和(27),我们自然有:
在这里插入图片描述

LDA的训练

训练目标是参数 φ \varphi φ θ \theta θ,而 α , β \alpha,\beta αβ是超参数。

那么我们怎么去估计这两个参数呢?我们知道,word是可以观测到的已知数据,而topic是隐含的变量。如果我们有 p ( w ⃗ , z ⃗ ) p(\vec w,\vec z) p(w ,z )的联合概率,那么根据式子(28)我们自然可以估计参数 φ \varphi φ θ \theta θ。由于topic是隐含变量,要估计联合概率,自然希望通过某种方式采样topics,最终使得这些topics能够收敛,而之前说过,高维的采样考虑使用吉布斯采样。因此这里使用吉布斯采样对topic进行采样。假设这里我们已经清楚了吉布斯采样在LDA中的计算细节,那么LDA Training的过程是:
在这里插入图片描述
吉布斯采样在LDA中的计算细节:
由于联合概率的分母计算量较大,因此我们最终需要采样的分布是 p ( z ⃗ ∣ w ⃗ ) p(\vec z|\vec w) p(z w )。那么接下来:
在这里插入图片描述
这个过程仅仅涉及到第m篇文章和第k个topic,因此与其他的M+K-2个Dirichlet-Multinomial共轭结构相互独立。其本身涉及的共轭结构:
在这里插入图片描述
因此我们有:
在这里插入图片描述
根据狄利克雷分布的性质:
在这里插入图片描述
最终我们可以得到:
在这里插入图片描述

参考

LDA数学八卦

LDA(Latent Dirichlet Allocation)简介
Arthur-Chen的专栏
10-06 4235
LDA(Latent Dirichlet Allocation)就是一种非常有效的无监督学习的主题生成模型。因为互联网中80%的信息都是以文本的形式存储,所以主题建模、文本分类等文本挖掘技术相当重要。
LDA基本介绍以及LDA源码分析(BLEI)
weixin_33805992的博客
04-26 1480
  基本介绍:   topic model,主题模型介绍:http://www.cnblogs.com/lixiaolun/p/4455764.html  以及 (http://blog.csdn.net/hxxiaopei/article/details/7617838)   topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topi...
LDA简介
Jt1123的专栏
10-12 1385
上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。 D. M. Blei在2003年(准确地说应该是2002年)提出的LDA(Latent D
LDA
VergiL Wang的专栏
03-27 177
关键所在:it posits that each document is a mixture of a small number of topics and that each word's creation is attributable to one of the document's topics。 将文档看成是一组主题的混合,词有分配到每个主题的概率。 Probabilistic l...
LDA.zip_lda_lda简单
09-20
2. 模型相对简单,易于理解和实现。 3. 可以处理稀疏数据,适用于大规模文本挖掘。 缺点: 1. 需要预先设定主题数量,这对结果有一定影响。 2. 对于文档长度和主题分布均匀性的敏感度较高。 3. 结果解释性相对较弱...
Python实现的LDA模型执行简单的文字片段分类任务.zip
07-06
资源包含文件:设计报告word+源码及数据 从给定的语料库中均匀抽取 200 个段落(每个段落大于 500 个词), 每个段落的标签就是对应段落所属的...详细介绍参考:https://blog.csdn.net/newlw/article/details/125078570
LDA_Matlab_LDAMATLAB_
09-29
本资源是外国学者为MATLAB环境编写的LDA实现,旨在提供一个简单易用的工具箱。以下将详细介绍其中的三个主要文件及其功能: 1. **lda_param_est.m**:这个脚本主要负责参数估计,这是进行LDA的关键步骤。在LDA中,...
基于python的LDA模型实现代码
03-22
除了`gensim`,还有其他Python库提供LDA实现,如`scikit-learn`的`LatentDirichletAllocation`类,虽然功能相对简单,但易于集成到现有的scikit-learn工作流程中。此外,`topicmodels`库提供了多种主题模型,包括LDA...
LDA和PCA简单用例
10-28
本文将通过一个简单的MATLAB实现,详细介绍这两种方法的基本概念和应用。 **LDA——线性判别分析** LDA的主要目标是找到一种投影方式,使得类别间的差异最大化,同时类别内的差异最小化。这在多类分类问题中尤其...
lda算法的详细介绍
11-13
主要讲述的是LDA算法,并将其和多种其它有关算法做了比较
LDA介绍
豌豆先生
04-13 1364
LDA介绍Introduction to Latent Dirichlet AllocationBy Edwin Chen
LDA(Latent Dirichlet Allocation)主题模型算法
chenglinhust的专栏
01-15 2058
LDA(Latent Dirichlet Allocation)主题模型算法  LDA整体流程 先定义一些字母的含义: 文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC) LDA
LDA模型简介、源码分析及实验
shimin520shimin的专栏
10-05 2632
一  概率主题模型简介     隐含狄利克雷分布(LatentDirichlet Allocation,LDA)[1]是一种文档生成模型,包含文档、主题和词三层结构。如图1所示,LDA假设每篇文档由若干隐含的主体组成,每个主题下有一系列与主题相关的词汇。当要生成一篇文章时,是通过以一定的概率选择某个主题,然后再以一定的概率选择主题下某个词语。LDA是一种非监督机器学习技术,可以用来发现大规模文档
主题模型LDA简介
xiaomeng29的博客
04-09 407
介绍性的讲解在此不多讲,本文主要讲主题模型LDA的原理。 我们可以从生成模型思考一下,一篇文章由文档进而生成文字,是怎样的一个概率过程呢。在主题模型中,文档“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”。按照该思路,文档中词语出现的概率为: 上面的公式还可以用矩阵来...
lda
kylin_learn的博客
07-03 365
#参数初始化 inputfile1 = '../data/meidi_jd_process_end_负面情感结果.txt' inputfile2 = '../data/meidi_jd_process_end_正面情感结果.txt' outputfile1 = '../data/meidi_jd_neg.txt' outputfile2 = '../data/meidi_jd_pos.txt' ...
请你简单介绍一下LDA主题模型
最新发布
03-25
LDA (Latent Dirichlet Allocation)主题模型是一种文本处理方法,用于自动分析和组织文本中的主题和背景。它基于一种假设,即文本中的每个单词实际上都是从一个概率分布中抽取而来的,并且这个概率分布又是从一组...
写文章

热门文章

  • 命名实体识别(NER)算法 7825
  • 线性回归,岭回归,LASSO回归与逻辑回归 3416
  • word2vec原理+代码 2720
  • 论文阅读笔记: SIFRank and BERT-KPE 2591
  • Transformer 代码+原理 2315

分类专栏

  • NLP 10篇
  • recommend 3篇
  • 安装环境 1篇
  • 深度学习基础 5篇
  • 机器学习 5篇
  • 基础数学 5篇

最新评论

  • Induction Networks for Few-Shot Text Classification

    beautyxiaowang: 作者你好,我想问一下你分享的这篇文章的原文是那一篇呢?

  • Transformer 代码+原理

    qbdl: 不是说用C语言实现吗?

  • word2vec原理+代码

    fenfyue: 函数keywords那部分你能跑通嘛?

大家在看

  • 字符串及其求字符串的长度
  • MySQL:事务 604
  • 【C++】C++入门概念(二)
  • 机器学习中的模型、策略和算法 507
  • 圆周率10000位 97

最新文章

  • BERT系列模型总结
  • Transformer 代码+原理
  • 常用word embedding简介
2021年25篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王武汉网站的优化本溪海外网站优化网站为什么要优化界首市网站优化优化网站建设哪家技术好防城港网站排名优化服务兰州网站整站优化哪家有名如何优化网站地图桂城网站优化报价服务行业网站优化案例优化网站有哪几种方式潜江工厂网站优化黑龙江如何优化网站泉州网站优化营商网站排名优化赞易点网络搜狗网站优化关键词如何建设和优化网站口碑好的网站seo优化专家惠州排名优化网站优化公司余杭区网站排名优化蓬莱智能营销网站优化公司荣成网站优化服务网站关键词优化企业做优化网站怎么优化代码网站优化整合营销做法网站为什么要做关键词优化崇明区企业网站优化案例安阳网站外包优化保定市网站优化公司长春市网站优化找哪家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化