一种歌声合成模型的训练方法、装置、介质及电子设备与流程

文档序号：34900606发布日期：2023-07-26 10:27阅读：34来源：国知局

导航： X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术

本说明书涉及计算机，尤其涉及一种歌声合成模型的训练方法、装置、介质及电子设备。

背景技术：

1、随着科技的不断发展，人机交互过程变得越来越频繁以及越来越智能，其中，通过人机交互合成歌声得到广泛的关注。

2、通常，歌声合成是指根据歌词信息和歌谱信息合成歌声的过程。因此，如何合成歌声是一个非常重要的问题。

3、基于此，本说明书提供一种歌声合成模型的训练方法。

技术实现思路

1、本说明书提供一种歌声合成模型的训练方法、装置、介质及电子设备，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种歌声合成模型的训练方法，待训练的歌声合成模型包括旋律预测层和歌声预测层；所述方法包括：

4、获取预先收集的歌曲的歌曲数据，其中，所述歌曲数据至少包括歌词数据、歌谱数据和音频数据；

5、根据所述歌曲数据中包含的歌词数据，确定所述歌词数据对应的音素；

6、将所述歌谱数据和所述音素进行拼接，得到第一结果；

7、将所述第一结果输入所述待训练的歌声合成模型的旋律预测层，预测所述歌曲的第一旋律分布，其中，所述第一旋律分布包含所述歌词数据对应的音素的信息；

8、根据所述音频数据，确定所述歌曲的第一梅尔谱，并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层，得到预测音频以及第二旋律分布；

9、根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，并以所述目标损失最小为优化目标，对所述待训练的歌声合成模型进行训练。

10、可选地，所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层；

11、将所述第一结果输入所述待训练的歌声合成模型的旋律预测层，得到所述歌曲的第一旋律分布，具体包括：

12、将所述第一结果输入所述旋律预测层的特征提取层，得到所述音素的隐含特征；

13、将所述隐含特征输入所述旋律预测层的时长预测层，得到所述音素的第一发音时长；

14、根据所述音素的第一发音时长，对所述音素的隐含特征进行扩充处理，得到第二结果；

15、将所述第二结果输入所述旋律预测层的基频预测层，得到所述歌曲的音频帧的第一基频；

16、将所述第二结果和所述歌曲的音频帧的第一基频进行拼接，得到第三结果；

17、将所述第三结果输入所述旋律预测层的梅尔谱预测层，得到所述歌曲的第二梅尔谱；

18、将所述第二梅尔谱和所述第二结果进行拼接，得到第四结果；

19、将所述第四结果输入所述旋律预测层的分布预测层，得到所述歌曲的第一旋律分布。

20、可选地，所述歌声预测层包括声谱分布预测层、转化层和可微数字信号处理层；

21、根据所述音频数据，确定所述歌曲的第一梅尔谱，并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层，得到预测音频以及第二旋律分布，具体包括：

22、根据所述音频数据，采用预设的第一算法，确定所述歌曲的第一梅尔谱；

23、将所述第一梅尔谱输入所述歌声预测层的声谱分布预测层，得到所述歌曲的预测声谱分布；

24、将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层，得到所述歌曲的预测音频，以及将所述预测声谱分布输入所述歌声预测层的转化层，得到第二旋律分布。

25、可选地，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，具体包括：

26、根据所述音频数据和所述预测音频之间的差异，确定第一损失，以及根据所述第一旋律分布和所述第二旋律分布之间的差异，确定第二损失；

27、将所述第一损失与所述第二损失的和作为目标损失。

28、可选地，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，具体包括：

29、根据所述音频数据，采用预设的第二算法，确定所述音素的第二发音时长；

30、根据所述第一发音时长和所述第二发音时长之间的差异，确定第三损失；

31、根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第三损失，确定所述目标损失。

32、可选地，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，具体包括：

33、根据所述音频数据，采用预设的第三算法，确定所述歌曲的音频帧的第二基频；

34、根据所述第一基频和所述第二基频之间的差异，确定第四损失；

35、根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第四损失，确定所述目标损失。

36、可选地，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，具体包括：

37、根据所述第二梅尔谱和所述第一梅尔谱之间的差异，确定第五损失；

38、根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第五损失，确定所述目标损失。

39、可选地，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，具体包括：

40、根据所述音频数据，采用预设的算法，确定所述音素的第二发音时长、所述歌曲的音频帧的第二基频；

41、根据所述第一发音时长和所述第二发音时长之间的差异，确定第三损失；根据所述第一基频和所述第二基频之间的差异，确定第四损失；根据所述第二梅尔谱和所述第一梅尔谱之间的差异，确定第五损失；

42、根据所述第一旋律分布与所述第二旋律分布的差异、所述音频数据与所述预测音频的差异、所述第三损失、所述第四损失和所述第五损失，确定目标损失。

43、可选地，将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层，得到所述歌曲的预测音频，具体包括：

44、将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层，确定所述歌曲的音频帧的谐波参数和噪声参数；

45、针对所述歌曲的每一个音频帧，确定该音频帧对应的预测基频；

46、根据该音频帧对应的预测基频和该音频帧的谐波参数，确定该音频帧的谐波信号，以及根据该音频帧对应的预测基频和该音频帧的噪声参数，确定该音频帧的噪声信号；

47、确定该音频帧的谐波信号和该音频帧的噪声信号的和，作为该音频帧的音频信号；

48、根据各音频帧的音频信号，确定所述歌曲的预测音频。

49、可选地，所述方法还包括：

50、响应于用户的输入操作，确定所述用户输入的待合成歌曲的歌词数据和歌谱数据；

51、确定所述用户输入的歌词数据对应的音素，作为待合成音素；

52、将所述待合成音素与所述用户输入的歌谱数据进行拼接，得到第一结果；

53、将所述第一结果输入训练完成的歌声合成模型的旋律预测层，预测所述待合成歌曲的旋律分布；

54、将所述待合成歌曲的旋律分布输入所述训练完成的歌声合成模型的歌声预测层中的转化层，得到所述待合成歌曲的声谱分布；

55、将所述待合成歌曲的声谱分布输入所述训练完成的歌声合成模型的歌声预测层中的可微数字信号处理层，得到所述待合成歌曲的音频。

56、可选地，所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层；

57、所述方法还包括：

58、响应于用户的输入操作，确定所述用户输入的待合成歌曲的歌词数据和歌谱数据；

59、确定所述用户输入的歌词数据对应的音素，作为待合成音素；

60、将所述待合成音素与所述用户输入的歌谱数据进行拼接；

61、将拼接后的结果输入训练完成的歌声合成模型的旋律预测层的特征提取层，得到所述待合成音素的隐含特征；

62、将所述待合成音素的隐含特征输入所述时长预测层，得到所述待合成音素的发音时长；

63、根据所述待合成音素的发音时长，对所述待合成音素的隐含特征进行扩充处理，得到扩充结果；

64、将所述扩充结果输入所述基频预测层，得到所述待合成歌曲的音频帧的基频；

65、将所述扩充结果和所述基频进行拼接，得到第一拼接结果；

66、将所述第一拼接结果输入所述梅尔谱预测层，得到所述待合成歌曲的梅尔谱；

67、将所述梅尔谱和所述扩充结果进行拼接，得到第二拼接结果；

68、将所述第二拼接结果输入所述分布预测层，得到所述待合成歌曲的旋律分布；

69、将所述旋律分布输入训练完成的歌声合成模型的歌声预测层的转化层，得到所述待合成歌曲的声谱分布；

70、将所述声谱分布输入所述可微数字信号处理层，得到所述待合成歌曲的音频。

71、本说明书提供了一种歌声合成模型的训练装置，待训练的歌声合成模型包括旋律预测层和歌声预测层；所述装置包括：

72、获取模块，用于获取预先收集的歌曲的歌曲数据，其中，所述歌曲数据至少包括歌词数据、歌谱数据和音频数据；

73、音素模块，用于根据所述歌曲数据中包含的歌词数据，确定所述歌词数据对应的音素；

74、确定模块，用于将所述歌谱数据和所述音素进行拼接，得到第一结果；

75、旋律模块，用于将所述第一结果输入所述待训练的歌声合成模型的旋律预测层，预测所述歌曲的预测旋律分布，其中，所述预测旋律分布包含所述歌词数据对应的音素的信息；

76、音频模块，用于根据所述音频数据，确定所述歌曲的第一梅尔谱，并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层，得到预测音频以及第二旋律分布；

77、训练模块，根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，确定目标损失，并以所述目标损失最小为优化目标，对所述待训练的歌声合成模型进行训练。

78、可选地，所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层；

79、所述旋律模块具体用于，将所述第一结果输入所述旋律预测层的特征提取层，得到所述音素的隐含特征；将所述隐含特征输入所述旋律预测层的时长预测层，得到所述音素的第一发音时长；根据所述音素的预测发音时长，对所述音素的隐含特征进行扩充处理，得到第二结果；将所述第二结果输入所述旋律预测层的基频预测层，得到所述歌曲的音频帧的第一基频；将所述第二结果和所述歌曲的音频帧的第一基频进行拼接，得到第三结果；将所述第三结果输入所述旋律预测层的梅尔谱预测层，得到所述歌曲的第一梅尔谱；将所述第一梅尔谱和所述第二结果进行拼接，得到第四结果；将所述第四结果输入所述旋律预测层的分布预测层，得到所述歌曲的第一旋律分布。

80、可选地，所述歌声预测层包括声谱分布预测层、转化层和可微数字信号处理层；

81、所述音频模块具体用于，根据所述音频数据，采用预设的第一算法，确定所述歌曲的第一梅尔谱；将所述第一梅尔谱输入所述歌声预测层的声谱分布预测层，得到所述歌曲的预测声谱分布；将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层，得到所述歌曲的预测音频，以及将所述预测声谱分布输入所述歌声预测层的转化层，得到第二旋律分布。

82、可选地，所述训练模块具体用于，根据所述音频数据和所述预测音频之间的差异，确定第一损失，以及根据所述第一旋律分布和所述第二旋律分布之间的差异，确定第二损失；将所述第一损失与所述第二损失的和作为目标损失。

83、可选地，所述训练模块具体用于，根据所述音频数据，采用预设的第二算法，确定所述音素的第二发音时长；根据所述第一发音时长和所述第二发音时长之间的差异，确定第三损失；根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第三损失，确定所述目标损失。

84、可选地，所述训练模块具体用于，根据所述音频数据，采用预设的第三算法，确定所述歌曲的音频帧的第二基频；根据所述第一基频和所述第二基频之间的差异，确定第四损失；根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第四损失，确定所述目标损失。

85、可选地，所述训练模块具体用于，根据所述第二梅尔谱和所述第一梅尔谱之间的差异，确定第五损失；根据所述第一旋律分布与所述第二旋律分布的差异，所述音频数据与所述预测音频的差异，以及所述第五损失，确定所述目标损失。

86、可选地，所述训练模块具体用于，根据所述音频数据，采用预设的算法，确定所述音素的第二发音时长、所述歌曲的音频帧的第二基频；根据所述第一发音时长和所述第二发音时长之间的差异，确定第三损失；根据所述第一基频和所述第二基频之间的差异，确定第四损失；根据所述第二梅尔谱和所述第一梅尔谱之间的差异，确定第五损失；根据所述第一旋律分布与所述第二旋律分布的差异、所述音频数据与所述预测音频的差异、所述第三损失、所述第四损失和所述第五损失，确定目标损失。

87、可选地，所述音频模块具体用于，将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层，确定所述歌曲的音频帧的谐波参数和噪声参数；针对所述歌曲的每一个音频帧，确定该音频帧对应的预测基频；根据该音频帧对应的预测基频和该音频帧的谐波参数，确定该音频帧的谐波信号，以及根据该音频帧对应的预测基频和该音频帧的噪声参数，确定该音频帧的噪声信号；确定该音频帧的谐波信号和该音频帧的噪声信号的和，作为该音频帧的音频信号；根据各音频帧的音频信号，确定所述歌曲的预测音频。

88、可选地，所述装置还包括：

89、应用模块，用于响应于用户的输入操作，确定所述用户输入的待合成歌曲的歌词数据和歌谱数据；确定所述用户输入的歌词数据对应的音素，作为待合成音素；将所述待合成音素与所述用户输入的歌谱数据进行拼接，得到第一结果；将所述第一结果输入训练完成的歌声合成模型的旋律预测层，预测所述待合成歌曲的旋律分布；将所述待合成歌曲的旋律分布输入所述训练完成的歌声合成模型的歌声预测层中的转化层，得到所述待合成歌曲的声谱分布；将所述待合成歌曲的声谱分布输入所述训练完成的歌声合成模型的歌声预测层中的可微数字信号处理层，得到所述待合成歌曲的音频。

90、可选地，所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层；

91、应用模块，用于响应于用户的输入操作，确定所述用户输入的待合成歌曲的歌词数据和歌谱数据；确定所述用户输入的歌词数据对应的音素，作为待合成音素；将所述待合成音素与所述用户输入的歌谱数据进行拼接；将拼接后的结果输入训练完成的歌声合成模型的旋律预测层的特征提取层，得到所述待合成音素的隐含特征；将所述待合成音素的隐含特征输入所述时长预测层，得到所述待合成音素的发音时长；根据所述待合成音素的发音时长，对所述待合成音素的隐含特征进行扩充处理，得到扩充结果；将所述扩充结果输入所述基频预测层，得到所述待合成歌曲的音频帧的基频；将所述扩充结果和所述基频进行拼接，得到第一拼接结果；将所述第一拼接结果输入所述梅尔谱预测层，得到所述待合成歌曲的梅尔谱；将所述梅尔谱和所述扩充结果进行拼接，得到第二拼接结果；将所述第二拼接结果输入所述分布预测层，得到所述待合成歌曲的旋律分布；将所述旋律分布输入训练完成的歌声合成模型的歌声预测层的转化层，得到所述待合成歌曲的声谱分布；将所述声谱分布输入所述可微数字信号处理层，得到所述待合成歌曲的音频。

92、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述歌声合成模型的训练方法。

93、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述歌声合成模型的训练方法。

94、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

95、本说明书提供的歌声合成模型的训练方法，获取预先收集的歌曲的歌曲数据，根据歌曲数据中包含的歌词数据，确定歌词数据对应的音素。再将歌谱数据和音素进行拼接，得到第一结果。之后，将第一结果输入待训练的歌声合成模型的旋律预测层，得到歌曲的第一旋律分布。再根据音频数据，确定歌曲的第一梅尔谱，并将第一梅尔谱输入待训练的歌声合成模型的歌声预测层，得到预测音频以及第二旋律分布。然后，根据第一旋律分布与第二旋律分布的差异，音频数据与预测音频的差异，确定目标损失，并以目标损失最小为优化目标，对待训练的歌声合成模型进行训练。

96、从上述方法中可以看出，本技术在合成歌声时，通过预先收集的歌曲的歌曲数据，训练待训练的歌声合成模型。在训练时，先根据歌曲的歌词数据，确定歌曲的音素，再将音素与歌谱数据进行拼接，并将拼接结果输入待训练的歌声合成模型的旋律预测层，得到歌曲的第一旋律分布。之后，根据音频数据，确定歌曲的第一梅尔谱，并将第一梅尔谱输入待训练的歌声合成模型的歌声预测层，得到预测音频以及第二旋律分布。然后，根据第一旋律分布与第二旋律分布的差异，音频数据与预测音频的差异，确定目标损失。再根据目标损失，对待训练的歌声合成模型进行训练，提高训练完成的歌声合成模型的采样率，使得根据歌声合成模型生成的歌声中的颤音减少。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李太豪郑书凯汪芬
技术所有人：之江实验室
我是此专利的发明人

上一篇：一种云数据中心设备管理系统
上一篇：一种管道内壁随形机构及其使用方法与流程