CNV检测装置的制作方法

文档序号:18089593发布日期:2019-07-06 10:41阅读:1328来源:国知局
导航: X技术> 最新专利> 医药医疗技术的改进;医疗器械制造及应用技术
CNV检测装置的制作方法

本发明涉及一种无创cnv检测装置,以及利用该无创cnv检测装置无创检测cnv的方法。



背景技术:

基因拷贝数变异(copynumbervariations,以下简称为cnv)是一类在临床上非常重要的结构变异,多数微缺失或微重复具有多态性,但也有部分缺失重复具有致病或致死性。因此在胎儿出生前识别具有致病致死性的cnv,并进行早期干预,可以降低新生儿缺陷。

现阶段无创产前基因检测(以下简称为nipt筛查)基于新一代测序平台(ngs平台)对母体外周血进行测序分析,通过分析手段过滤系统噪音并增加胎儿信号,从而实现对染色体非整倍性进行检测。无创cnv则是基于nipt将染色体窗口化,并对每一个窗口独立进行信号放大和显著性校验。

由于测序数据中大部分信号来自母亲,因此当存在母源cnv或胎盘嵌合时,胎儿信号容易被掩盖。另一方面,当实验体系不稳定时,gc偏移或系统噪音的干扰容易导致结果判断失准,出现假阳性或假阴性结果。胎儿浓度同样是影响结果判断的重要变量,浓度越高,结果置信度越高。



技术实现要素:

鉴于上述现有技术中存在的不足,本发明的目的在于提供一种对cnv的检测灵敏度更高的检测装置及检测方法。

具体来说,本发明的目的是通过以下技术方案予以实现。

1.一种拷贝数变异检测装置,其包括:

测序数据获取模块,该模块基于获取的母体外周血游离dna进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据;

分窗口片段化模块,该模块用于将所述测序数据比对到参考基因组序列,并将所述测序数据切割为等长的窗口,并使每两个相邻窗口之间存在交集,统计每个窗口的包括read、uniqueread(ur)、mapability、genomicgc和/或uniquereadsgc的窗口参数;

基于reads数检测cnv的模块,该模块基于所述每个窗口计算z值,计算cnv概率,以及用cnv概率估测胎儿浓度,从而判断待测样本是否被怀疑为阳性cnv,并排除母源性cnv的干扰;

基于uniquereads数检测cnv的模块,根据检测分辨率规定滑动步长m,该模块基于相邻m个窗口计算平均reads(mr)和平均gc(mgc),并构建窗口特异性线性回归模型,从而判断待测样本是否被怀疑为cnv;

模型结果汇总模块,该模块基于上述两个检测cnv的模块的输出结果进行比较分析输出最终结果。

2.根据项1所述的检测装置,其中,所述基于reads数检测cnv的模块包括如下子模块:

数据预处理和标准化模块,该模块用于对所述reads进行gc校正以消除文库间差异;以及在进行gc校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性;

z检验放大信号模块,该模块利用背景库样本计算每个窗口的均值和方差,并通过z检验计算每个窗口的z值;

染色体切片模块,该模块利用连续性的窗口z值对染色体进行切片处理,将状态相似的连续性窗口合并为一个待测区间,并判断该区间的包括dup、del、normal的属性;

计算z值置信区间的模块,该模块针对所述染色体切片模块合并的每个待测区间,计算背景库样本相同区间内存在的连续窗口的z值的中值,根据中值分布的均值和方差计算设定置信区间范围,并判断所述待测区间是否落入所述置信区间,将没有落入该置信区间的区间判断为潜在cnv区间;

计算cnv概率的模块,该模块针对所述潜在cnv区间,在背景库样本相同区间计算该区间内窗口的reads的加和,获得概率密度分布,并根据待测cnv区间的reads,计算显著性概率,并对该显著性概率进行负对数转换并和给定的阈值进行比较;

计算cnv浓度的模块,该模块针对所述潜在cnv区间,利用背景库样本相同区间的ur和真实gc进行拟合,确定该潜在cnv区间的ur、gc,并利用潜在cnv区间的ur、gc计算cnv浓度,并根据该计算的cnv浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性cnv或胎盘嵌合。

3.根据项1或2所述的检测装置,其中,所述基于uniquereads数检测cnv的模块包括如下子模块:

minimodel构建模块,该模块进行消除不同文库间数据量的差异的预处理,在预处理之后,根据分辨率规定步长m,每相邻m个窗口合并为一个单元计算平均reads(mr)和平均gc(mgc),并利用背景库样本计算相同区间的mr’和mgc’分布,并对mr’和mgc’进行拟合,根据待测值mr和mgc对应的理论值计算残差,根据残差判断窗口的包括dup、del、normal的属性,根据mr’和mgc’的相关性r、mgc、以及背景数据mr’的标准差sd计算权重,判断置信度;

染色体分段切片模块,该模块利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域,从而对染色体进行分段切片处理,识别cnv边界位置;

显著性评估模块,该模块针对所述切片区间,从待测样本的染色体其他区域随机抽取相同数量的窗口值,重复该过程从而确定在背景分布中真实值的显著性。

4.根据项3所述的检测装置,其中,在minimodel构建模块中,根据待测值mr和mgc对应的理论值计算残差并判断置信度还包括:

针对所述每个单元,计算所有背景库样本mr’的标准差、mr’与mgc’的pearson相关系数,待测样本mgc在背景库样本mgc’上分布的分位数,并整合所述标准差、相关系数以及分位数来计算权重,从而判断置信度。

5.根据项1~4中任一项所述的检测装置,其中,在所述模型结果汇总模块中,如果所述待测样本存在基于reads数和z值检测cnv的模块和基于ur数和均值检测cnv的模块所述两个模块的输出结果中均报告为目标cnv区间的部分,且在判断目标cnv区间的重合率超过设定阈值时,报告该重合区域作为cnv,如果针对待测区间在上述两个模块中的结果不一致,则输出为假阳性的结果。

6.根据项3~5中任一项所述的检测装置,在显著性评估模块中,所述过程重复10000次。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于执行以下步骤:

测序数据获取步骤,基于获取的母体外周血游离dna进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据;

分窗口片段化步骤,用于将所述测序数据比对到参考基因组序列,并将所述测序数据切割为等长的窗口,并使每两个相邻窗口之间存在交集,统计每个窗口的包括read、uniqueread(ur)、mapability、genomicgc和/或uniquereadsgc的窗口参数;

基于reads数检测cnv的步骤,基于所述每个窗口计算z值,计算cnv概率,以及用cnv概率估测胎儿浓度,从而判断待测样本是否被怀疑为阳性cnv,并排除母源性cnv的干扰;

基于uniquereads数检测cnv的步骤,根据分辨率规定滑动窗口长度m,基于相邻m个窗口计算平均reads(mr)和平均gc(mgc),并构建窗口特异性线性回归模型,从而判断待测样本是否被怀疑为cnv;

模型结果汇总步骤,基于上述两个检测cnv的模块的输出结果进行比较分析输出最终结果。

8.根据项7所述的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序还用于执行以下步骤:

数据预处理和标准化步骤,该步骤用于对所述reads进行gc校正以消除文库间差异;以及在进行gc校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性;

z检验放大信号步骤,该步骤利用背景库样本计算每个窗口的均值和方差,并通过z检验计算每个窗口的z值;

染色体切片步骤,该步骤利用连续性的窗口z值对染色体进行切片处理,将状态相似的连续性窗口合并为一个待测区间,并判断该区间的包括dup、del、normal的属性;

计算z值置信区间的步骤,该步骤针对所述染色体切片模块合并的每个待测区间,计算背景库样本相同区间内存在的连续窗口的z值的中值,根据中值分布的均值和方差计算95%置信区间范围,并判断所述待测区间是否落入所述置信区间,将没有落入该置信区间的区间判断为潜在cnv区间;

计算cnv概率的步骤,该步骤针对所述潜在cnv区间,在背景库样本相同区间计算该区间内窗口的reads的加和,获得概率密度分布,并根据待测cnv区间的reads,计算显著性概率,并对该显著性概率进行负对数转换并和给定的阈值进行比较;

计算cnv浓度的步骤,该步骤针对所述潜在cnv区间,利用背景库样本相同区间的ur和真实gc进行拟合,确定该潜在cnv区间的ur、gc,并利用潜在cnv区间的ur、gc计算cnv浓度,并根据该计算的cnv浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性cnv或胎盘嵌合。

9.根据项7所述的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序还用于执行以下步骤:

minimodel构建步骤,该步骤进行消除不同文库间数据量的差异的预处理,在预处理之后,根据分辨率规定滑动窗口长度m,每相邻m个窗口合并为一个单元计算平均reads(mr)和平均gc(mgc),并利用背景库样本计算相同区间的mr’和mgc’分布,并对mr’和mgc’进行拟合,根据待测值mr和mgc对应的理论值计算残差,根据残差判断窗口的包括dup、del、normal的属性,根据mr’和mgc’的相关性r、mgc、以及背景数据mr’的标准差sd计算权重,判断置信度;

染色体分段切片步骤,该步骤利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域,从而对染色体进行分段切片处理,识别cnv边界位置;

显著性评估步骤,该步骤针对所述切片区间,从待测样本的染色体其他区域随机抽取相同数量的窗口值,重复该过程从而确定在背景分布中真实值的显著性。

10.根据项7所述的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序还用于执行以下步骤:

如果所述待测样本存在基于reads数和z值检测cnv的模块和基于ur数和均值检测cnv的模块所述两个模块的输出结果中均报告为目标cnv区间的部分,且在判断目标cnv区间的重合率超过设定阈值时,报告该重合区域作为cnv,如果针对待测区间在上述两个模块中的结果不一致,则输出为假阳性的结果。

11.一种拷贝数变异检测方法,其包括如下步骤:

测序数据获取步骤,基于获取的母体外周血游离dna进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据;

分窗口片段化步骤,将所述测序数据比对到参考基因组序列,并将所述测序数据切割为等长的窗口,并使每两个相邻窗口之间存在交集,统计每个窗口的包括read、uniqueread(ur)、mapability、genomicgc和/或uniquereadsgc的窗口参数;

基于reads数检测cnv的步骤,在该步骤中,基于所述每个窗口计算z值,计算cnv概率,以及用cnv概率估测胎儿浓度,从而判断待测样本是否被怀疑为阳性cnv,并排除母源性cnv的干扰;

基于uniquereads数检测cnv的步骤,在该步骤中,基于相邻10个窗口计算平均reads(mr)和平均gc(mgc),并构建窗口特异性线性回归模型,从而判断待测样本是否被怀疑为cnv;

模型结果汇总步骤,在该步骤中,基于上述两个检测cnv的模块的输出结果进行比较分析输出最终结果。

12.根据项11所述的检测方法,其中,所述基于reads数检测cnv的步骤包括如下步骤:

数据预处理和标准化步骤,该步骤用于对所述reads进行gc校正以消除文库间差异;以及在进行gc校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性;

z检验放大信号步骤,该步骤利用背景库样本计算每个窗口的均值和方差,并通过z检验计算每个窗口的z值;

染色体切片步骤,该步骤利用连续性的窗口z值对染色体进行切片处理,将状态相似的连续性窗口合并为一个待测区间,并判断该区间的包括dup、del、normal的属性;

计算z值置信区间的步骤,该步骤针对所述染色体切片模块合并的每个待测区间,计算背景库样本相同区间内存在的连续窗口的z值的中值,根据中值分布的均值和方差计算95%置信区间范围,并判断所述待测区间是否落入所述置信区间,将没有落入该置信区间的区间判断为潜在cnv区间;

计算cnv概率的步骤,该步骤针对所述潜在cnv区间,在背景库样本相同区间计算该区间内窗口的reads的加和,获得概率密度分布,并根据待测cnv区间的reads,计算显著性概率,并对该显著性概率进行负对数转换并和给定的阈值进行比较;

计算cnv浓度的步骤,该步骤针对所述潜在cnv区间,利用背景库样本相同区间的ur和真实gc进行拟合,确定该潜在cnv区间的ur、gc,并利用潜在cnv区间的ur、gc计算cnv浓度,并根据该计算的cnv浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性cnv或胎盘嵌合。

13.根据项11或12所述的检测方法,其中,所述基于uniquereads数检测cnv的步骤包括如下步骤:

minimodel构建步骤,该步骤进行消除不同文库间数据量的差异的预处理,在预处理之后,根据分辨率规定滑动窗口长度m,每相邻m个窗口合并为一个单元计算平均reads(mr)和平均gc(mgc),并利用背景库样本计算相同区间的mr’和mgc’分布,并对mr’和mgc’进行拟合,根据待测值mr和mgc对应的理论值计算残差,根据残差判断窗口的包括dup、del、normal的属性,根据mr’和mgc’的相关性r、mgc、以及背景数据mr’的标准差sd计算权重,判断置信度;

染色体分段切片步骤,该步骤利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域,从而对染色体进行分段切片处理,识别cnv边界位置;

显著性评估步骤,该步骤针对所述切片区间,从待测样本的染色体其他区域随机抽取相同数量的窗口值,重复该过程从而确定在背景分布中真实值的显著性。

14.根据项13所述的检测方法,其中,在minimodel构建步骤中,根据待测值mr和mgc对应的理论值计算残差并判断置信度还包括:

针对所述每个单元,计算所有背景库样本mr’的标准差、mr’与mgc’的pearson相关系数,待测样本mgc在背景库样本mgc’上分布的分位数,并整合所述标准差、相关系数以及分位数来计算权重,从而判断置信度。

15.根据项11~14中任一项所述的检测方法,其中,在所述模型结果汇总步骤中,如果所述待测样本存在基于reads数和z值检测cnv的模块和基于ur数和均值检测cnv的模块所述两个模块的输出结果中均报告为目标cnv区间的部分,且在判断目标cnv区间的重合率超过设定阈值时,报告该重合区域作为cnv,如果针对待测区间在上述两个模块中的结果不一致,则输出为假阳性的结果。

16.根据项13~15中任一项所述的检测方法,在显著性评估模块中,所述过程重复10000次。

在本发明中采用n个阴性样本建立背景库,待测样本(即胎儿)与背景库比较进行显著性校验。在本发明的装置和方法中待测样本和背景库均经过相同预处理过程,主要包括染色体窗口化:每条染色体被切割成等长的窗口,每两个相邻窗口之间有交集;lowessgc校正:每条待测染色体和1号和/或2号染色体共同进行gc校正。其中1号和2号染色体相对稳定,具有较高的容积率和多样性,作为参照,可以有效评价待测染色体的缺失或重复。此外,用1号,2号染色体做参照,可以一定程度消除不同文库数据量上的差异。对于每个窗口,在背景库中计算在n个阴性样本中的均值和方差,经过三次z检验放大信号。最后z值大于1的窗口被认为是发生了重复,小于-1的窗口被认为发生了缺失,其余窗口则属于正常波动。同一类别的窗口被合并,最后针对合并后的窗口ur计算胎儿浓度,结合z值和胎儿浓度过滤由于数据波动而造成的假阳性结果。所有的cnv都被匹配到dgv和omim数据库,输出cnv对应的注释信息,包括多态性,致病性等。

在本发明中,将整条染色体切分成窗口,可以有效避免因局部微缺失或微重复而对整条染色体的影响。每个窗口的长度为等长,窗口长度可根据测序深度计算,例如,游离dna片段比对到每个窗口的数量不低于测序浓度下限的倒数。本发明中,优选的每个窗口的长度可以为100k,每两个相邻窗口之间存在50k的交集。

在本发明中,上述m可以为任意整数。m越小,分辨率越高,但每个合并后的bin波动性越强,稳定性降低。m越大,分辨率越低,但合并后的bin稳定性强,uniquereads和gc之间的关联性越显著。例如,m的范围可以为5-20之间任意整数,对应分辨率为0.25-1m。

在本发明中,上述设定阈值用于评价两种cnv检测模块的一致性。由于两种cnv检测模块的分段模块存在差异,所以对于识别的cnv边界可能有一定偏差。设定阈值越高,对两个模块的一致性要求越严格;反之越宽松。本发明中,优选的设定阈值为50%。

在本发明中,设定置信区间可以为本领域技术人员通常采用的值或范围,例如95%或99%。

在本发明中,通过染色体分段来识别cnv边界,依赖于对不同均值的正态分布的序列数据进行分段的模型或算法。由于cnv区域的均值和临近染色体区域存在显著差异,因此利用上述给定模块可识别出cnv边界信息。

无创cnv检测不同于nipt染色体非整倍性检测,在实验条件不稳定的情况下,数据波动等系统噪音更容易以假阳性的形式出现在结果中。当系统噪音较大时,其中一个主要特征体现为reads真实gc偏差,利用基因组gc校正并不能去除这种类型的数据波动。

如上所述,根据本发明的装置基于nipt平台,对样本常染色体和x染色体微缺失微重复进行检测。本发明提供一种检测灵敏度更高的无创cnv检测装置,利用本发明的装置,可以降低假阳性或假阴性的出现概率,大大提高检测胎儿cnv的准确度和灵敏度。

附图说明

通过阅读下文优选的具体实施方式中的详细描述,本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。

图1本发明的检测装置进行的数据分析流程。

图2采用对比例1的方法进行cnv判定的结果图。

图3采用实施例1的方法进行cnv判定的结果图。

具体实施方式

本发明中涉及如下定义。

高通量测序:高通量测序技术(high-throughputsequencing)又称“下一代”测序技术("next-generation"sequencingtechnology),以能一次并行对几十万到几百万条dna分子进行序列测定。

窗口(滑动窗口):一般指基因组上的一段固定长度的区域。

背景库:由n例(一般认为>=20例)健康人样本所组成的样本库。

reads:read的复数,高通量测序平台产生的一段短测序片段序列。

uniqueread:是指唯一比对到基因组上的reads。在测序过程中,有些reads可以同时比对到基因组多个位置,uniqueread则是从所有非dup的reads中过滤掉这些多处比对的reads,剩下的就是uniqueread.

mapability:对于某些窗口,短序列唯一性较低,主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因,此时利用利用mapability这个参数计算每个窗口的效率并和阈值0.625比较,低于阈值的窗口不带入计算。

genomicgc:该参数代表每个窗口对应的基因组gc,在所有文库中均相同。此外在下文所述的模型一中,该参数被用于做gc校正,目的是用于修正因gc偏好性造成的reads读数差异。

readsgc:每个窗口中所有reads对应的gc。

uniquereadsgc:代表每个窗口中uniquereads对应的gc,在下述模型一中用于计算cnv的浓度;在下述模型二中,对于连续10个窗口合成的数据点p,uniquereadsgc用于对背景数据进行拟合,从而计算p的残差。

dup:duplication,重复区域,代表目标cnv存在3个拷贝

del:deletion,缺失区域,代表目标cnv存在单个拷贝

normal:代表正常2个拷贝

真实gc:是相对于固有的genomicgc来定义的。真实gc是指uniquereads对应的gc,是在测序过程和实验环境下真实体现出的序列gc信息。

本发明基于低深度全基因组测序的nipt平台,对样本常染色体和x染色体微缺失微重复进行检测。

在一个实施例中,本发明的拷贝数变异检测装置,其包括:

测序数据获取模块、分窗口片段化模块、基于所有reads数检测cnv的模块、基于uniquereads数检测cnv的模块以及模型结果汇总模块。

首先针对测序数据获取模块,该模块基于获取的母体外周血游离dna进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据。利用该模块基于se40对母体外周血中的混合dna进行提取、扩增、建库、以及测序。最后通过信息分析的方法比对到染色体上,从而分析染色体的信息。其中对于母体外周血中的混合dna进行提取、扩增、建库和测序的方法均可以采用本领域中常用的方法。

在本实施例中背景库样本的数量并不固定,可以根据不同时间段、不同试剂、不同实验条件下来确定。例如背景库样本包括1000个以上阴性样本,优选包括2000个以上阴性样本,优选包括3000个以上阴性样本,优选包括3500个以上阴性样本,进一步优选例如为4000个阴性样本。

就分窗口片段化模块而言,该模块用于将上述测序数据比对到参考基因组序列,并将所述测序数据切割为等长的窗口,并使每两个相邻窗口之间存在交集,统计每个窗口的包括read、uniqueread(ur)、mapability和/或uniquereadsgc的窗口参数。

在本发明中,对于参考基因组序列没有限定,可以使用任何已知的人类基因组的参考序列,只要保证所有样本使用的是同一套序列做比对就可以。在一个具体的实施方案中,参考基因组序列为hg19参考序列。

就基于所有reads数检测cnv的模块而言,该模块包括以下子模块,并用于执行下述模型一。

所述基于所有reads数检测cnv的模块包括如下子模块:

数据预处理和标准化模块,该模块用于对所述所有reads进行gc校正以消除文库间差异;以及在进行gc校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性;

z检验放大信号模块,该模块利用背景库样本计算每个窗口的均值和方差,并通过z检验计算每个窗口的z值;

染色体切片模块,该模块利用连续性的窗口z值对染色体进行切片处理,将状态相似的连续性窗口合并为一个待测区间,并判断该区间的包括dup、del、normal的属性;

计算z值置信区间的模块,该模块针对所述染色体切片模块合并的每个待测区间,计算背景库样本相同区间内存在的连续窗口的z值的中值,根据中值分布的均值和方差计算95%置信区间范围,并判断所述待测区间是否落入所述置信区间,将没有落入该置信区间的区间判断为潜在cnv区间;

计算cnv概率的模块,该模块针对所述潜在cnv区间,在背景库样本相同区间计算该区间内窗口的全部reads的加和,获得概率密度分布,并根据待测cnv区间的全部reads,计算显著性概率,并对该显著性概率进行负对数转换并和给定的阈值进行比较;

计算cnv浓度的模块,该模块针对所述潜在cnv区间,利用背景库样本相同区间的ur和真实gc进行拟合,确定该潜在cnv区间的ur、gc,并利用潜在cnv区间的ur、gc计算cnv浓度,并根据该计算的cnv浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性cnv或胎盘嵌合。

模型一

该模型一包括如下步骤:

步骤一、数据预处理和标准化,其进一步包括如下子步骤:

(1)gc校正

在模型一中利用lowess算法对reads进行gc校正,为了消除文库间差异,客观评价染色体的波动情况,对于任一待测染色体,校正时和1号,2号染色体同时进行校正。由于1、2两条染色体发病率较低,gc覆盖范围较大,因此lowess校正时可增加结果稳定性。平滑系数f设为0.67。校正过程采用高质量reads,即uniquereads/(mapability+1)>=0.625,然后用校正后整体均值和方差,估计低质量窗口的reads。

(2)均一化校正

为了使所有待测样本以及参考样本之间具有可比性,模型一根据gc校正后的染色体窗口reads(去除异常值)估计对应的方差,利用待测染色体的窗口reads除以标准差,从而校正到方差为1的水平。

在此,gc校正的目的是为了修正测序过程中固有的gc偏好性,修正后染色体上不同位置的reads趋向于相同水平;利用1号和2号染色体作为背景,和待测染色体一起做校正,目的是为了消除文库间差异。因为不同文库的数据量不同,但是在文库内部染色体之间的相对关系是稳定的,所以用1号,2号染色体做参照,可以一定程度消除不同文库数据量上的差异。

步骤二、z检验放大信号

利用背景库样本计算每个窗口的均值和方差,通过z检验计算每个窗口的z值。每次z检验通过收敛数据获得较小的方差,从而放大信号,z检验过程重复三次。

步骤三、滑动窗口对染色体进行切片

为了从待测染色体上识别dup,del等cnv区间,以及其他正常区间,模型一需利用连续性的窗口z值对染色体进行切片处理。这里采用滑动窗口法,状态相似的连续性窗口被合并为一个区间,这个区间的属性(dup,del,normal)将被进一步判断。

步骤四、计算z值置信区间

对于切片后的每个区间,我们在背景库样本相同区间计算区间内连续窗口z值的中值,根据中值分布的均值和方差,估计95%置信区间范围。若待测区间落在置信区间,则认为该区间为正常2个拷贝,否则可能为潜在cnv区间。

步骤五、计算cnv概率

对于潜在cnv区间,在背景库样本相同区间计算区间内窗口reads加和,获得概率密度分布,根据待测cnv区间reads,计算显著性概率,并经过负对数转换并和阈值比较。

其中,负对数转换对显著性概率p进行计算,并和阈值比较。这个阈值是通过阳性样本最低检测线定义的,即能够保证报出真阳性样本cnv区间的阈值。

步骤六、计算cnv浓度

对于cnv所在区间,利用背景库样本相同区间的ur和真实gc计算拟合线,并利用潜在cnv的ur,gc计算浓度。cnv浓度和胎儿真实浓度比较,若明显低于胎儿浓度,则认为可能是因数据波动或噪音导致的假阳性;若明显高于胎儿浓度,则怀疑是母源性cnv或嵌合。

在本文中胎儿真是浓度可以采用如下方法确定:对于男胎,真实的胎儿浓度是通过y染色体的含量计算的;而对于女胎,可以通过母亲孕周,体重等信息衡量cnv估测的真实浓度,该估测方法不影响识别母源性cnv。

就基于uniquereads数检测cnv的模块而言,该模块包括以下子模块,并用于执行下述模型二。

minimodel构建模块,该模块进行消除不同文库间数据量的差异的预处理,在预处理之后,根据分辨率规定滑动窗口长度m,每相邻m个窗口合并计算平均reads(mr)和平均gc(mgc),并利用背景库样本计算相同区间的mr’和mgc’分布,并对mr’和mgc’进行拟合,根据待测值mr和mgc对应的理论值计算残差,根据残差判断窗口的包括dup、del、normal的属性,根据mr’和mgc’的相关性r、mgc、以及背景数据mr’的标准差sd计算权重,判断置信度;

染色体分段切片模块,该模块利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域,从而对染色体进行分段切片处理,识别cnv边界位置;

具体来说,该模块可以利用haarseg模型对染色体进行切片处理,以识别出具有相同拷贝的染色体区间,该模型中的参数breaksfdrq通过模型自适应计算,即按照指定步长逐渐收敛,直至两次循环切片结果一致,模型达到稳定,即切片的个数不再发生变化;

显著性评估模块,该模块针对所述切片区间,从待测样本的染色体其他区域随机抽取相同数量的窗口值,重复该过程,例如重复10000次从而确定在背景分布中真实值的显著性。

模型二

该模型二包括如下步骤:

步骤一、minimodel构建

对于待测染色体,为消除不同文库间数据量的差异,每个窗口reads均除以1号染色体窗口reads的中值。预处理之后,根据分辨率规定滑动窗口长度m,每相邻m个窗口合并计算平均reads(mr)和平均gc(mgc),同时利用背景库样本计算相同区间mr’和mgc’分布,并利用线性回归模型进行拟合。根据待测值mr和mgc对应的理论值计算残差,残差越大,说明该m个窗口越可能属于dup;残差越小,说明该m个窗口越可能属于del;残差越接近0,该m个窗口越可能是正常2个拷贝;最后根据mr’和mgc’的相关性r,mgc,以及背景数据mr’的标准差sd计算权重(weight),权重越大,置信度越高。

详细来说,首先我们对所有窗口uniquereads均除以1号染色体平均uniquereads数,消除样本间数据量的差异。之后我们把每相邻10个窗口作为一个单元,计算在待测样本中的校正后的平均uniquereads数的mr(即平均值),以及对应区域的平均gc含量mgc。同样的,我们对每个背景库样本计算相同区域所对应的mr’,mgc’。根据从背景库样本中计算获得的mr’,mgc’向量,我们通过回归分析拟合出目标区域mr对应mgc的拟合线,根据观测值和理论值的残差转换为浓度值,即实现了从混合信号中分离胎儿信号的目的。然而,由于低数据量测序技术的限制,以及dna片段在测序过程中的偏好性,因此uniquereads在染色体上分布并不均匀。这就意味着直接通过拟合线计算每个单元的残差,对于所有单元来说并不公平。因此我们额外还计算了每个单元上,所有背景库样本mr’的标准差,mr’与mgc’的pearson相关系数,待测样本mgc在背景库样本mgc’上分布的分位数,并整合这三个变量计算权重weight。标准差越大,相关系数越小,分位数越靠近边界,说明单元对应区域测序质量低,或uniquereads与gc关联性弱,因此置信度较低,所获得的权重也较小,进而消除低置信度单元对周围其他区域造成的影响。反之,置信度高的单元对应权重大,因此对结果判断的影响也较大。

在步骤一中所有片段化的区域都被分类为dup重复,del缺失,normal正常。dup和del最后被当做cnv报出。其中,针对该mr’和mgc’分布进行拟合是对背景库中参照样本进行的分析。即利用参照样本计算相同窗口区间的mr’、mgc’。

举例来说,1000个参考样本,应该可以在相同区间计算出1000个mr’对应1000个mgc’,这1000个数据点以mgc’为横轴,mr’为纵轴可以获得背景的散点分布,利用这个分布可以获得拟合线,拟合线上的任意位置代表当前mgc’所对应的mr’的理论值。

步骤二、染色体分段切片

模型二采用haarseg模型对染色体进行切片处理,参数breaksfdrq通过模型自适应计算,即按照指定步长逐渐收敛,直至两次循环切片结果一致,模型达到稳定。

haarseg模型是用于分析arraycgh的分析模型,用于对染色体进行片段化区分,识别出具有相同拷贝的染色体区间。breaksfdrq越大,模型分辨率越高,切片越多;反之分辨率越低,切片越少。随着breaksfdrq变化,切片个数随之改变,指导相邻两次循环,切片个数不再变化,认为模型已经稳定,但不一定只有一个切片,只是说在不同breaksfdrq影响下,切片的个数不随之发生变化。针对haarseg模型可以参照例如:http://webee.technion.ac.il/sites/people/yoninaeldar/info/software/haarseg.htm。

步骤三、显著性评估

对于切片区间,从待测染色体其他区域随机抽取相同数量的窗口值,此过程重复10000次,从而估计在背景分布中,真实值的显著性。

如上所述,模型一统计的是所有reads的count;模型二统计的是uniquereads的count。

就模型结果汇总模块而言,该模块基于上述两个检测cnv的模块的输出结果进行比较分析输出最终结果。

两模型结果汇总

根据两套模型的输出结果,若目标cnv区间在两套模型中均被报出,且重合率超过50%,则该重合区域作为cnv被报出。反之,认为该待测区间在两套模型中结果不一致,可能是假阳性结果。

实施例

以下给出实施例,对本发明进行更具体的说明,但本发明不限于这些实施例。

在下述实施例和对比例中采用孕妇外周血为2017年1月送入北京某医院的来自某孕妇的外周血,该孕妇的临床检查结果为低cnv风险,并且该孕妇在随后的跟踪过程中显示已经生产了无cnv的正常婴儿。

对比例1

对上述样本进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据。

采用statisticalapproachtodecreasingtheerrorrateofnoninvasiveprenatalaneuploiddetectioncausedbymaternalcopynumbervariation(publishedonline2015nov4.doi:10.1038/srep16106,pmcid:pmc4632076)中记载的方法,对上述样本进行分析,具体步骤如下参照该文献中记载的方法进行,得到如图2所示的分析结果。根据该分析结果判定该样本为15号染色体长臂存在重复片段。

进行上述判断的依据为:所有窗口均经过标准化校正,因此正常二个拷贝区域和背景库信号一致,残差为服从均值为0的正态分布。因此通过95%置信区间为阈值,高于阈值的连续性窗口倾向于多拷贝,低于阈值的连续性窗口倾向于单拷贝。通过haarseg算法(关于haarseg算法可以参见:https://academic.oup.com/bioinformatics/article/24/16/i139/199827)对染色体进行切片,图中15号染色体长臂前端明显高于阈值,因此高度怀疑是一个微重复cnv区域。

实施例1

对上述样本进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据。

将实施例1的测序数据切割为等长的100k长度窗口,并使每两个相邻窗口之间存在50k的交集,统计每个窗口的包括read、uniqueread(ur)、mapability、genomicgc和/或uniquereadsgc的窗口参数;

进行基于reads数的检测cnv,基于上述得到的每个窗口计算z值,计算cnv概率,以及用cnv概率估测胎儿浓度,从而判断待测样本是否被怀疑为阳性cnv,并排除母源性cnv的干扰;在本步骤的分析结果如图3的模型一图所示,根据该结果显示模型一通过forward,backward连续差值计算,结合小波分析平滑降噪,识别出潜在cnv边界,并针对每个潜在cnv区域进行显著性评估,通过样本内和样本间比较,发现15号染色体长臂前端信号不显著,因此判断为正常二个拷贝。

进行基于uniquereads数检测cnv,该模块基于相邻10个窗口计算平均reads(mr)和平均gc(mgc),并构建窗口特异性线性回归模型,从而判断待测样本是否被怀疑为cnv;在本步骤的分析结果如图3的模型二图所示,根据该结果显示模型二利用uniquereads提取胎儿信号结合haarseg模型切片并划分区域,根据样本内波动自适应规定阈值,15号染色体长臂前端未超过阈值,因此认为是信号波动,判断为正常二个拷贝。

结果汇总,基于上述两个检测cnv的模块的输出结果进行比较分析输出最终结果,由于两个模型均判断为阴性,因此可以认为15号染色体长臂的略强信号属于系统噪音的波动,而不是真实的微重复,故判断为阴性。

其中每个步骤的具体操作方式可以参见上述说明书中所描述的方案。

根据图3可以看出,利用实施例1的方法认为上述样本的15号染色体为正常核型,与实际结果吻合。

可见本发明的方法利用多重校正和过滤标准,极大的降低了假阳性率。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种手持式脑卒中恢复理疗冷刺...
  • 用于预防癌症化疗脱发的头皮冷...
  • 一种单细胞免疫组库测序数据的...
  • 一种电加热可调式热敷贴的制作...
  • 一种转录组和代谢组数据关联分...
  • 一种神经外科颅脑创伤术后护理...
  • 用于功能证实癌症突变的RNA...
  • 一种可调式腹部暖宫宝的制作方...
  • 改进的激素结合蛋白质分类方法...
  • 一种高舒适度的腹部暖宫宝的制...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
位置检测装置相关技术
  • 一种永磁同步电动机转子磁极位置检测装置的制造方法
  • 电子装置的位置提示方法、移动终端和电子装置与流程
  • 一种天线馈源位置的检测装置、天线和馈源位置校正方法与流程
  • 一种曳引电梯的平层系统的制造方法与工艺
  • 一种冲片机进料位置检测装置的制造方法
  • 设置有编码器的推钢机位置检测装置的制造方法
  • 包装盒喷码位置校正装置的制造方法
  • 自身位置计算装置以及自身位置计算方法与制造工艺
  • 位置指示器及其制造方法与制造工艺
  • 位置检测装置的制造方法
检测装置气密性相关技术
  • 一种气密性检测装置的制造方法
  • 一种汽车发动机外壳的气密性检测装置的制造方法
  • 一种气密检测装置的制造方法
  • 一种气密性检测装置的制造方法
  • 一种足球气密性检测装置的制造方法
  • 气瓶气密性检测装置的制造方法
  • 一种套管气密性检测装置的制造方法
  • 一种检测电池气密性装置的制造方法
  • 一种用于检测壳体气密性的装置的制造方法
  • 一种消声器用气密性检测装置的制造方法
防雷装置检测相关技术
  • 一种三七微粉化防团聚技术装置的制造方法
  • 呼吸检测装置和系统的制造方法
  • 一种基于体重检测装置的检测方法及系统与流程
  • 对象自动校正方法及其自动校正检测装置与流程
  • 文件重构装置的制造方法
  • 一种图像检测方法和装置与流程
  • 消费服务方法及装置与流程
  • 恶意软件检测方法及装置与流程
  • 一种烹饪状态检测方法及装置与流程
  • 一种点播影院设备检测方法及装置与流程
检测技术和自动化装置相关技术
  • 一种自动化检测打螺丝的装置的制造方法
  • 一种适应性强的自动化检测装置的制造方法
  • 自动检测装置的制造方法
  • 一种自动化旋转测漏装置的制造方法
  • 铝合金轮毂在线自动检测装置的制造方法
  • 基于偏振光成像技术的检测装置的制造方法
  • 儿童玩具自动检测装置的制造方法
  • 断膜自动检测装置的制造方法
  • 一种手动搬运车自动化生产线的检测装置的制造方法
  • 铁块高度自动检测装置的制造方法
气体检测设备相关技术
  • 一种气体检测的系统及方法
  • 一种气体检测的方法及设备的制造方法
  • 一种用于大气检测设备的气体进样口的制作方法
  • 一种便携式可燃气体检测仪的制作方法
  • 一种便携式可燃气体检测仪的制作方法
  • 一种化工多气体检测仪电路系统的制作方法
  • 一种基于双波长光纤环形腔的气体浓度检测系统的制作方法
  • 用于使工艺气体脱氮的工艺设备和精炼厂的制作方法
  • 四合一气体检测仪的制作方法
  • 一种手持式气体检测设备的制造方法
磁粉检测相关技术
  • 一种基于亥姆霍茨线圈的石油管柱缺陷快速检测探头的制造方法与工艺
  • 用于交叉管道焊缝的磁记忆检测装置的制造方法
  • 红外磁光成像无损检测系统及方法与制造工艺
  • 一种U肋内侧焊缝外观质量检测方法与制造工艺
  • 用于钢板自动检测系统的防撞拔叉的制造方法与工艺
  • 手持式磁粉检测仪的制造方法与工艺
  • 一种自动磁粉检测装置的制造方法
  • 一种钢板清洗除磁装置的制造方法
  • 一种用于具有定位功能的脉冲涡流检测探头固定装置的制造方法
  • 一种用于固定多个脉冲涡流检测探头的装置的制造方法
空气检测相关技术
  • 一种新型物联网空气质量检测报警装置的制造方法
  • 一种具备空气净化功能涂料的制备方法与流程
  • 一种祛除车内甲醛及芳香烃的微生态制剂及其制备方法与流程
  • 一种办公室管理系统的制造方法与工艺
  • 一种便携式空气粉尘检测装置的制造方法
  • 气流方向指示器的制造方法与工艺
  • 一种高效室内空气净化机的制造方法与工艺
  • 一种肉牛健康检测和环境调整系统的制造方法与工艺
  • 一种具有有线和无线传输的医用氧舱压缩空气检测装置的制造方法
  • 一种基于无线通信的空气污染监测系统的制造方法与工艺

天下网标王搜索引擎营销seo优化网站成都营销型网站优化方案网站优化服务合同即墨网站如何做优化重庆网站万词优化湛江网站seo关键词优化技巧中山网站维护优化广州专业网站优化汉口网站优化费用聊城正规网站优化咨询电话经济开发区网站seo优化网站优化排名推广使用兴田德润推广网站优化服务中山百度网站优化论坛网站优化邯郸家居行业网站优化推广平邑优化型网站衢州网站优化怎样做最新网站优化哪家快启东百度网站优化排名天镇县网站seo优化排名新媒体网站优化怎么做兰州新区网站优化推广公司哪家好黄平网站seo优化公司高性能网站优化方法b2b网站优化技巧虹口区官方网站优化哪家好青浦区提供网站服务商优化价格网站seo优化关键词怎么做南通网站优化公司香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化