MockingBird:🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容

gitx1年前 ⋅ 6950 阅读

https://github.com/babysor/MockingBird

https://github.com/babysor/MockingBird/blob/main/README-CN.md    中文文档

特性:

中文 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等

PyTorch 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060

Windows + Linux 可在 Windows 操作系统和 linux 操作系统中运行(苹果系统M1版也有社区成功运行案例)

Easy & Awesome 仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder

Webserver Ready 可伺服你的训练结果,供远程调用

基于深度模型编解码的声音克隆,这比一些普通的变声软件要危险的多

有论文地址吗?

@hyfox   https://github.com/babysor/MockingBird/blob/main/README-CN.md#%E5%BC%95%E7%94%A8%E5%8F%8A%E8%AE%BA%E6%96%87

有哪些使用场景?

1. 语音助手:MockingBird可以用来创建个性化的语音助手,使用者的声音可以被克隆为语音助手的声音,从而提供更加个性化的服务。

2. 视频制作:MockingBird可以用来制作配音或者为虚拟角色配音,使用者可以将自己的声音克隆为虚拟角色的声音,从而让虚拟角色拥有更真实的声音。

3. 电话客服:MockingBird可以用来代替实际人员,为客户提供自动化的电话客服服务,使用者的声音可以被克隆为电话客服的声音。

4. 录音应用:MockingBird可以用来创建个性化的录音应用,使用者可以轻松地录制任何语音内容,并使用自己的声音作为录音应用的声音。

5. 行业培训:MockingBird可以用来为任何行业提供个性化的语音培训,使用者的声音可以被克隆为培训讲师的声音,从而提供更加身临其境的培训体验。

有哪些类似的项目?

1. Lyrebird - 这是一个加拿大的初创公司,也是在这个领域的先驱之一。他们的技术可以在一分钟内制作出一个人的声音模型,并用它来生成任何类型的语音内容。

2. Baidu DeepVoice - 百度是中国的一家知名科技公司,也有一项类似的技术。他们的系统可以模拟人的声音,并让人听到其它可能性的发音和语气。 

3. Google WaveNet - Google的WaveNet使用深度学习的方法,让机器学习从上千小时的语音样本中生成声音,并具有相当高的质量。 

4. Modulate.ai - Modulate.ai是一家刚刚起步的初创公司,其技术能够让人们在在线游戏中用自己的真实声音互相交流,而不是增加一个虚拟语音。 

5. Voysis - Voysis的技术可将人的声音模型应用于商业场景,比如信息查询或购物,使得对话更加自然。

有哪些优缺点?

优点:
1. 高效快速:只需5秒钟即可克隆声音,在短时间内生成语音内容,可大幅提高工作效率;
2. 个性化定制:可以根据个人需求进行声音克隆,帮助用户打造专属语音产品;
3. 实现无人值守:AI拟声可以实现无人值守,未来可用于语音客服、智能家居等领域;
4. 弥补语音缺失:可以提供个人语音留声、缺失人物语音等服务,为用户带来更好的声音体验。

缺点:
1. 隐私问题:AI拟声使用者的声音被克隆可能会引发个人隐私问题;
2. 造假风险:AI拟声技术可以模拟任意人的声音,透过技术亦可造假,可能会引起社会舆论的困扰和误导;
3. 精准度有限:AI拟声技术的精准度有限,可能出现克隆声音与原声音有差距、语音中存在断句不自然等问题;
4. 技术成本高:AI拟声技术在现阶段技术成本相对较高,需要更多的人力、物力投资。

全部评论: 0

    相关推荐