一种歌声合成模型的训练方法、装置、介质及电子设备与流程

文档序号:34900606发布日期:2023-07-26 10:27阅读:34来源:国知局
导航: X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术
一种歌声合成模型的训练方法、装置、介质及电子设备与流程

本说明书涉及计算机,尤其涉及一种歌声合成模型的训练方法、装置、介质及电子设备。


背景技术:

1、随着科技的不断发展,人机交互过程变得越来越频繁以及越来越智能,其中,通过人机交互合成歌声得到广泛的关注。

2、通常,歌声合成是指根据歌词信息和歌谱信息合成歌声的过程。因此,如何合成歌声是一个非常重要的问题。

3、基于此,本说明书提供一种歌声合成模型的训练方法。


技术实现思路

1、本说明书提供一种歌声合成模型的训练方法、装置、介质及电子设备,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种歌声合成模型的训练方法,待训练的歌声合成模型包括旋律预测层和歌声预测层;所述方法包括:

4、获取预先收集的歌曲的歌曲数据,其中,所述歌曲数据至少包括歌词数据、歌谱数据和音频数据;

5、根据所述歌曲数据中包含的歌词数据,确定所述歌词数据对应的音素;

6、将所述歌谱数据和所述音素进行拼接,得到第一结果;

7、将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,预测所述歌曲的第一旋律分布,其中,所述第一旋律分布包含所述歌词数据对应的音素的信息;

8、根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布;

9、根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,并以所述目标损失最小为优化目标,对所述待训练的歌声合成模型进行训练。

10、可选地,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;

11、将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,得到所述歌曲的第一旋律分布,具体包括:

12、将所述第一结果输入所述旋律预测层的特征提取层,得到所述音素的隐含特征;

13、将所述隐含特征输入所述旋律预测层的时长预测层,得到所述音素的第一发音时长;

14、根据所述音素的第一发音时长,对所述音素的隐含特征进行扩充处理,得到第二结果;

15、将所述第二结果输入所述旋律预测层的基频预测层,得到所述歌曲的音频帧的第一基频;

16、将所述第二结果和所述歌曲的音频帧的第一基频进行拼接,得到第三结果;

17、将所述第三结果输入所述旋律预测层的梅尔谱预测层,得到所述歌曲的第二梅尔谱;

18、将所述第二梅尔谱和所述第二结果进行拼接,得到第四结果;

19、将所述第四结果输入所述旋律预测层的分布预测层,得到所述歌曲的第一旋律分布。

20、可选地,所述歌声预测层包括声谱分布预测层、转化层和可微数字信号处理层;

21、根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布,具体包括:

22、根据所述音频数据,采用预设的第一算法,确定所述歌曲的第一梅尔谱;

23、将所述第一梅尔谱输入所述歌声预测层的声谱分布预测层,得到所述歌曲的预测声谱分布;

24、将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,得到所述歌曲的预测音频,以及将所述预测声谱分布输入所述歌声预测层的转化层,得到第二旋律分布。

25、可选地,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:

26、根据所述音频数据和所述预测音频之间的差异,确定第一损失,以及根据所述第一旋律分布和所述第二旋律分布之间的差异,确定第二损失;

27、将所述第一损失与所述第二损失的和作为目标损失。

28、可选地,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:

29、根据所述音频数据,采用预设的第二算法,确定所述音素的第二发音时长;

30、根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;

31、根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第三损失,确定所述目标损失。

32、可选地,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:

33、根据所述音频数据,采用预设的第三算法,确定所述歌曲的音频帧的第二基频;

34、根据所述第一基频和所述第二基频之间的差异,确定第四损失;

35、根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第四损失,确定所述目标损失。

36、可选地,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:

37、根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;

38、根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第五损失,确定所述目标损失。

39、可选地,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,具体包括:

40、根据所述音频数据,采用预设的算法,确定所述音素的第二发音时长、所述歌曲的音频帧的第二基频;

41、根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;根据所述第一基频和所述第二基频之间的差异,确定第四损失;根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;

42、根据所述第一旋律分布与所述第二旋律分布的差异、所述音频数据与所述预测音频的差异、所述第三损失、所述第四损失和所述第五损失,确定目标损失。

43、可选地,将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,得到所述歌曲的预测音频,具体包括:

44、将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,确定所述歌曲的音频帧的谐波参数和噪声参数;

45、针对所述歌曲的每一个音频帧,确定该音频帧对应的预测基频;

46、根据该音频帧对应的预测基频和该音频帧的谐波参数,确定该音频帧的谐波信号,以及根据该音频帧对应的预测基频和该音频帧的噪声参数,确定该音频帧的噪声信号;

47、确定该音频帧的谐波信号和该音频帧的噪声信号的和,作为该音频帧的音频信号;

48、根据各音频帧的音频信号,确定所述歌曲的预测音频。

49、可选地,所述方法还包括:

50、响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;

51、确定所述用户输入的歌词数据对应的音素,作为待合成音素;

52、将所述待合成音素与所述用户输入的歌谱数据进行拼接,得到第一结果;

53、将所述第一结果输入训练完成的歌声合成模型的旋律预测层,预测所述待合成歌曲的旋律分布;

54、将所述待合成歌曲的旋律分布输入所述训练完成的歌声合成模型的歌声预测层中的转化层,得到所述待合成歌曲的声谱分布;

55、将所述待合成歌曲的声谱分布输入所述训练完成的歌声合成模型的歌声预测层中的可微数字信号处理层,得到所述待合成歌曲的音频。

56、可选地,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;

57、所述方法还包括:

58、响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;

59、确定所述用户输入的歌词数据对应的音素,作为待合成音素;

60、将所述待合成音素与所述用户输入的歌谱数据进行拼接;

61、将拼接后的结果输入训练完成的歌声合成模型的旋律预测层的特征提取层,得到所述待合成音素的隐含特征;

62、将所述待合成音素的隐含特征输入所述时长预测层,得到所述待合成音素的发音时长;

63、根据所述待合成音素的发音时长,对所述待合成音素的隐含特征进行扩充处理,得到扩充结果;

64、将所述扩充结果输入所述基频预测层,得到所述待合成歌曲的音频帧的基频;

65、将所述扩充结果和所述基频进行拼接,得到第一拼接结果;

66、将所述第一拼接结果输入所述梅尔谱预测层,得到所述待合成歌曲的梅尔谱;

67、将所述梅尔谱和所述扩充结果进行拼接,得到第二拼接结果;

68、将所述第二拼接结果输入所述分布预测层,得到所述待合成歌曲的旋律分布;

69、将所述旋律分布输入训练完成的歌声合成模型的歌声预测层的转化层,得到所述待合成歌曲的声谱分布;

70、将所述声谱分布输入所述可微数字信号处理层,得到所述待合成歌曲的音频。

71、本说明书提供了一种歌声合成模型的训练装置,待训练的歌声合成模型包括旋律预测层和歌声预测层;所述装置包括:

72、获取模块,用于获取预先收集的歌曲的歌曲数据,其中,所述歌曲数据至少包括歌词数据、歌谱数据和音频数据;

73、音素模块,用于根据所述歌曲数据中包含的歌词数据,确定所述歌词数据对应的音素;

74、确定模块,用于将所述歌谱数据和所述音素进行拼接,得到第一结果;

75、旋律模块,用于将所述第一结果输入所述待训练的歌声合成模型的旋律预测层,预测所述歌曲的预测旋律分布,其中,所述预测旋律分布包含所述歌词数据对应的音素的信息;

76、音频模块,用于根据所述音频数据,确定所述歌曲的第一梅尔谱,并将所述第一梅尔谱输入所述待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布;

77、训练模块,根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,确定目标损失,并以所述目标损失最小为优化目标,对所述待训练的歌声合成模型进行训练。

78、可选地,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;

79、所述旋律模块具体用于,将所述第一结果输入所述旋律预测层的特征提取层,得到所述音素的隐含特征;将所述隐含特征输入所述旋律预测层的时长预测层,得到所述音素的第一发音时长;根据所述音素的预测发音时长,对所述音素的隐含特征进行扩充处理,得到第二结果;将所述第二结果输入所述旋律预测层的基频预测层,得到所述歌曲的音频帧的第一基频;将所述第二结果和所述歌曲的音频帧的第一基频进行拼接,得到第三结果;将所述第三结果输入所述旋律预测层的梅尔谱预测层,得到所述歌曲的第一梅尔谱;将所述第一梅尔谱和所述第二结果进行拼接,得到第四结果;将所述第四结果输入所述旋律预测层的分布预测层,得到所述歌曲的第一旋律分布。

80、可选地,所述歌声预测层包括声谱分布预测层、转化层和可微数字信号处理层;

81、所述音频模块具体用于,根据所述音频数据,采用预设的第一算法,确定所述歌曲的第一梅尔谱;将所述第一梅尔谱输入所述歌声预测层的声谱分布预测层,得到所述歌曲的预测声谱分布;将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,得到所述歌曲的预测音频,以及将所述预测声谱分布输入所述歌声预测层的转化层,得到第二旋律分布。

82、可选地,所述训练模块具体用于,根据所述音频数据和所述预测音频之间的差异,确定第一损失,以及根据所述第一旋律分布和所述第二旋律分布之间的差异,确定第二损失;将所述第一损失与所述第二损失的和作为目标损失。

83、可选地,所述训练模块具体用于,根据所述音频数据,采用预设的第二算法,确定所述音素的第二发音时长;根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第三损失,确定所述目标损失。

84、可选地,所述训练模块具体用于,根据所述音频数据,采用预设的第三算法,确定所述歌曲的音频帧的第二基频;根据所述第一基频和所述第二基频之间的差异,确定第四损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第四损失,确定所述目标损失。

85、可选地,所述训练模块具体用于,根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;根据所述第一旋律分布与所述第二旋律分布的差异,所述音频数据与所述预测音频的差异,以及所述第五损失,确定所述目标损失。

86、可选地,所述训练模块具体用于,根据所述音频数据,采用预设的算法,确定所述音素的第二发音时长、所述歌曲的音频帧的第二基频;根据所述第一发音时长和所述第二发音时长之间的差异,确定第三损失;根据所述第一基频和所述第二基频之间的差异,确定第四损失;根据所述第二梅尔谱和所述第一梅尔谱之间的差异,确定第五损失;根据所述第一旋律分布与所述第二旋律分布的差异、所述音频数据与所述预测音频的差异、所述第三损失、所述第四损失和所述第五损失,确定目标损失。

87、可选地,所述音频模块具体用于,将所述歌曲的预测声谱分布输入所述歌声预测层的可微数字信号处理层,确定所述歌曲的音频帧的谐波参数和噪声参数;针对所述歌曲的每一个音频帧,确定该音频帧对应的预测基频;根据该音频帧对应的预测基频和该音频帧的谐波参数,确定该音频帧的谐波信号,以及根据该音频帧对应的预测基频和该音频帧的噪声参数,确定该音频帧的噪声信号;确定该音频帧的谐波信号和该音频帧的噪声信号的和,作为该音频帧的音频信号;根据各音频帧的音频信号,确定所述歌曲的预测音频。

88、可选地,所述装置还包括:

89、应用模块,用于响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;确定所述用户输入的歌词数据对应的音素,作为待合成音素;将所述待合成音素与所述用户输入的歌谱数据进行拼接,得到第一结果;将所述第一结果输入训练完成的歌声合成模型的旋律预测层,预测所述待合成歌曲的旋律分布;将所述待合成歌曲的旋律分布输入所述训练完成的歌声合成模型的歌声预测层中的转化层,得到所述待合成歌曲的声谱分布;将所述待合成歌曲的声谱分布输入所述训练完成的歌声合成模型的歌声预测层中的可微数字信号处理层,得到所述待合成歌曲的音频。

90、可选地,所述旋律预测层包括特征提取层、时长预测层、基频预测层、梅尔谱预测层和分布预测层;

91、应用模块,用于响应于用户的输入操作,确定所述用户输入的待合成歌曲的歌词数据和歌谱数据;确定所述用户输入的歌词数据对应的音素,作为待合成音素;将所述待合成音素与所述用户输入的歌谱数据进行拼接;将拼接后的结果输入训练完成的歌声合成模型的旋律预测层的特征提取层,得到所述待合成音素的隐含特征;将所述待合成音素的隐含特征输入所述时长预测层,得到所述待合成音素的发音时长;根据所述待合成音素的发音时长,对所述待合成音素的隐含特征进行扩充处理,得到扩充结果;将所述扩充结果输入所述基频预测层,得到所述待合成歌曲的音频帧的基频;将所述扩充结果和所述基频进行拼接,得到第一拼接结果;将所述第一拼接结果输入所述梅尔谱预测层,得到所述待合成歌曲的梅尔谱;将所述梅尔谱和所述扩充结果进行拼接,得到第二拼接结果;将所述第二拼接结果输入所述分布预测层,得到所述待合成歌曲的旋律分布;将所述旋律分布输入训练完成的歌声合成模型的歌声预测层的转化层,得到所述待合成歌曲的声谱分布;将所述声谱分布输入所述可微数字信号处理层,得到所述待合成歌曲的音频。

92、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述歌声合成模型的训练方法。

93、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述歌声合成模型的训练方法。

94、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

95、本说明书提供的歌声合成模型的训练方法,获取预先收集的歌曲的歌曲数据,根据歌曲数据中包含的歌词数据,确定歌词数据对应的音素。再将歌谱数据和音素进行拼接,得到第一结果。之后,将第一结果输入待训练的歌声合成模型的旋律预测层,得到歌曲的第一旋律分布。再根据音频数据,确定歌曲的第一梅尔谱,并将第一梅尔谱输入待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布。然后,根据第一旋律分布与第二旋律分布的差异,音频数据与预测音频的差异,确定目标损失,并以目标损失最小为优化目标,对待训练的歌声合成模型进行训练。

96、从上述方法中可以看出,本技术在合成歌声时,通过预先收集的歌曲的歌曲数据,训练待训练的歌声合成模型。在训练时,先根据歌曲的歌词数据,确定歌曲的音素,再将音素与歌谱数据进行拼接,并将拼接结果输入待训练的歌声合成模型的旋律预测层,得到歌曲的第一旋律分布。之后,根据音频数据,确定歌曲的第一梅尔谱,并将第一梅尔谱输入待训练的歌声合成模型的歌声预测层,得到预测音频以及第二旋律分布。然后,根据第一旋律分布与第二旋律分布的差异,音频数据与预测音频的差异,确定目标损失。再根据目标损失,对待训练的歌声合成模型进行训练,提高训练完成的歌声合成模型的采样率,使得根据歌声合成模型生成的歌声中的颤音减少。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种耐压型水下声吸收复合结构...
  • 基于预设文本的语音处理方法、...
  • 一种呼吸音信号辨识方法及系统
  • 一种基于人工智能的压缩音频静...
  • 一种双耳声道信号检测调整方法...
  • 一种传统信号处理与深度学习结...
  • 基于情感空间的语音合成方法、...
  • 一种音频处理方法、装置、设备...
  • 语音识别方法、装置、电子设备...
  • 一种信息处理方法、装置及相关...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

天下网标王许昌新站seo网站优化软件金华网站优化技术如何利用网站优化梅州网站优化如何深圳网站seo优化排名优化网站的必要性深圳网站seo优化排名广东网站搜索引擎优化如何优化网站提速三河企业网站优化从化网站优化排名软件优化电子商务网站怎么做福州市网站seo优化哪家强清水河网站优化营销沈阳三好街优化网站网站优化设计方式网站优化在济南工资待遇怎么样福田推广网站优化广告临潼网站建设关键词优化实力强的电商网站优化公司尖草坪网站优化黄埔网站优化哪家好佛山优化网站出售可以优化进球数奖金的网站绍兴网站seo优化方法铝业网站seo优化咨询海曙网站优化排名公司恩施网站优化推广开发临清市网站seo优化排名邯郸企业网站优化推广香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化