手把手教你声音克隆(so-vits-svc)

Table of Contents

前言

随着ChatGPT的爆火,AIGC(人工智能生成内容)再一次走到人们眼前。尤其是在文本、图像生成领域,通过GPT-4、Midjourney等应用生成各种令人惊叹定的文本和图片。

但 AI 在生成方面的能力,可远非如此如此。

我用长约一个小时的音频数据,训练了一个 AI 音色转换模型,生成了这首歌曲,效果如下所示,大家可以在评论区留言猜猜是谁?

小半-AI合成

视频里所使用的技术是 so-vits-svc,是音频转音频,属于音色转换算法,支持正常的说话,也支持歌声的音色转换。下面具体介绍如何使用so-vits-svc

 一、准备工作

训练数据很关键,越多高质量的音频数据,效果越好,建议至少准备一个小时以上的音频。

显卡建议使用 N 卡,且显存 8G 以上。

我将项目所需要的代码、工具整理了出来,如有需要可以在评论区留言或者通过下方链接联系我。

当然,也可以直接用开源代码直接部署,地址如下:

GitHub – svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion

二、环境安装

1.安装pytorch深度学习框架

需要安装pytorchtorchaudiotorchvision三个库

参考我之前写的https://yunlord.blog.csdn.net/article/details/129812705?spm=1001.2014.3001.5502

2.安装相关依赖

可以看到下载的项目中包含两个requirements.txt,以windows为例:

进入到项目中,通过prompt输入以下指令:

pip install -r requirements_win.txt

三、数据处理

训练音频、还有需要预测(或者说转换)的音频,都必须是人物的干声。换句话说,音频中不能包含背景音、伴奏、合声等,所以无论是训练和预测,都需要对数据进行处理。

1.提取人声

我们可以通过UVR5 这个软件实现伴奏与人声分离。

在 Windows 下可以直接使用,打开软件,按照如下配置:

运行即可分离人声和伴奏。

然后再按照如下配置,去除合声:

 经过提取出的干净人声音频就可以用来训练。

2.切割音频

不过因为音频太长,不要超过三十秒,很容易爆显存,需要对音频文件进行切片。

我们通过 Audio Slicer这个工具实现音频切分 。

直接运行 slicer-gui.exe。

填写输入路径,填写输出路径,其它参数都默认即可,这样就会得到切分好的音频段。

建议切完之后逐段听下,将效果不好的删除,高质量的音频比数量多的效果更好。并且如果还有时长超过30s的可以通过写的python音频切割代码,进行截切。

在项目的 so-vits-svc-4.0/dataset_raw 目录下创建一个文件夹,比如我的是 wang_processed,将处理好的数据放到里面。

四、训练模型

在训练模型前,我们需要下好原始模型,并将其放到对应位置

  • checkpoint_best_legacy_500.pt放入hubert文件夹下
  • 将D_0.pth和G_0.pth放入logs/44k目录下

1.数据预处理

接下来可以直接运行项目里面的1.数据预处理.bat

这个脚本就是按照步骤,运行各个 py 脚本:

(1) 重采样至44100Hz单声道

python resample.py

(2)自动划分训练集、验证集,以及自动生成配置文件

python preprocess_flist_config.py

(3)生成hubert与f0

python preprocess_hubert_f0.py

处理完毕后,会在 datset/44k 下生成一个文件夹,里面的数据如下图所示:

可以删除 dataset_raw 文件夹了。

2.模型训练

直接运行项目中的2.训练.bat 即可开启训练。

python train.py -c configs/config.json -m 44k

如果显卡够好,可以增加 batch_size 提高训练速度,对应的配置文件在 configs/config.json 文件里。

这个训练时间很长,个人觉得如果数据较好的话,训练到30000轮以上就有一个不错的效果。

3.聚类模型训练

直接运行项目中的3.训练聚类模型.bat 即可开启训练,这个比较快,几分钟即可跑完。

这个主要是可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式,可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在”像目标音色” 和 “咬字清晰” 之间调整比例,找到合适的折中点。

使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低。

  • 训练过程:
    • 执行python cluster/train_cluster.py ,模型的输出会在logs/44k/kmeans_10000.pt
  • 推理过程:
    • inference_main.py中指定cluster_model_path
    • inference_main.py中指定cluster_infer_ratio0为完全不使用聚类,1为只使用聚类,通常设置0.5即可

4.推理预测

(1)准备干声

准备一首歌的干声,干声可以按上述音频素材准备那样处理,通过UVR5提取一段不超过90s的干声素材。

(2)修改模型名

修改 app.py 里的这一行:

训练好的模型存放在了 logs/44k 目录下,这里改为训练好的模型地址,以及对应的配置文件,最后是第三步生成的 pt 文件路径。

(3)运行web

直接运行项目中的4.推理预测.bat。

程序会直接开启一个 webui,将开启的 url,直接复制到浏览器地址栏中打开即可。

就是一个简单的 Web 页面,里面的参数,可以直接使用默认的,放入一个音频,即可转换音色。

 

总结

勿用技术做恶,这个必须强调来说。本教程仅供交流学习使用。

随着AI技术的不断发展,各种难以想象的事情AI都能够做到,我们能做到的就是规范技术发展,用AI做一些对社会有益的事情。

欢迎大家在评论区留言猜猜是谁?

参考:

1.AI声音克隆教程 – 哔哩哔哩

2.so-vits-svc3.0 中文详细安装、训练、推理使用教程_Sucial的博客-CSDN博客

3.so-vits-svc/README_zh_CN.md at 4.0 · svc-develop-team/so-vits-svc · GitHub

文章出处登录后可见!

立即登录
已经登录? 立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
0
解决Edge Dev更新后NewBing侧边栏消失的问题,并使用NewBing作画
上一篇 2023年5月28日
Python标准库大全
下一篇 2023年5月28日

相关推荐

  • 【AIGC】9、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练 2023年5月23日
  • 原力计划 2023年5月12日
  • 加速“虚拟人+X”,魔珐科技撬动AIGC的杠杆 2023年12月22日
  • 最新智能AI系统+ChatGPT源码搭建部署详细教程+知识库+附程序源码 2023年9月1日
  • 探索古彝文的秘密,AI实现古籍传承 2023年10月17日
  • 【AI模型系列】火力全开!百度文心3.5三大维度、20项指标国内问鼎! 2023年8月15日
  • 从GPT-4、文心一言再到Copilot,AIGC卷出新赛道? 2024年1月8日
  • 18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 – 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述 2023年12月11日
  • 【AIGC】接着昨天的AI“洗图”骚操作,继续调戏国产大模型 2023年12月20日
  • 【周末闲谈】如何利用AIGC为我们创造有利价值? 2023年12月7日
  • 基于Amazon Bedrock的企业级生成式AI平台 2023年12月12日
  • 原力计划 2023年4月5日
  • 一文了解pycharm的安装及配置 2023年7月15日
  • 原力计划 2023年5月21日
  • 人工智能术语翻译(四) 2023年8月23日
  • 【Python】pyecharts 模块 ① ( ECharts 简介 | pyecharts 简介 | pyecharts 中文网站 | pyecharts 画廊网站 | pyecharts 画 ) 2023年7月28日

赞助商

此站出售,如需请站内私信或者邮箱!

天下网标王韶关网站seo优化网站营销优化推广网站产品优化就择火1星惠徐州综合网站优化是什么自媒体优化网站网站用户体验优化的要素桂林网站优化电池充电江干区网站排名优化网站seo优化怎样安徽企业网站排名优化网站优化怎么筛选客户今日头条如何做网站seo优化鹤壁优化网站排名找哪家汉川市网站关键词排名优化如何石家庄新网站优化保定正规的网站seo优化费用东城网站推广优化公司优化大师官网网站专业网站优化兴田德润网站搜索引擎优化的过程网站优化新手什么叫网站排名优化安阳网站建设优化推广南陵网站关键词优化费用洛阳专业网站优化系统牟平网站优化排名郴州外贸网站优化价格seo网站优化步骤分享优企客网站的优化内容东营区外贸英文网站优化设计香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化