Ai歌声转化算法任务初了解-526互联

2.13【A13】

智能计算

计算类

歌声转换算法

随着深度学习的发展, 近些年来音频算法在智能医疗、语音识别、语音合

成、声源定位等领域的应用非常火热,其效能和速度也不断得到精进。从过去的

云端服务, 逐步脱离并发展到PC端边缘运算, 到这几年再往移动端运算发展。

尽管硬件的运算能力越来越强大, 但是模型轻量化仍是算法设计所追求的核心

之一。唯有如此，AI算法才可以随时随地调用，发挥它们强大的作用。

AIGC席卷下，语音合成，语音转换一直是音频技术的关键核心技术。语音

合成的关键是学会目标人的音色，并迁移到源目标上。随着元宇宙的爆火，虚

拟人逐渐走到了荧幕前，语音合成也从音色转换升级至目标人的音色克隆。即

给定足够时长的目标人语音，即可通过文本的方式生成用户需要的音频片段。

然而仅仅让虚拟人说话是不够的，歌声是一个很好表现自己的方式，歌声转唱

就是典型的应用案例。随着“AI孙燕姿”的成功出圈，让用户可以链接粉丝和

偶像产生互动感，具有很强娱乐性，除此之外，歌声转唱可以为每个人提供个

性化的音乐体验，用户通过录制简单的一段说话音频，就可以定制属于自己独

特音色的歌手，让不擅长唱歌的用户完成歌曲的演唱。这就是:Singing Voice

Conversion。

歌声转换（Singing voice conversion）旨在保证歌唱内容的同时，将音

色从source speaker转换到 target speaker，这将为音乐行业带来革命性的变

化。歌声转唱具有很强的娱乐性，可以使目标歌手无需重新录制歌曲，不仅能

59中国大学生服务外包创新创业大赛组委会

够节省大量的时间和金钱，还能为艺术创作开辟新的艺术道路，同时可以让每

一个用户都能实现自己独特的音色唱歌，商业前景和市场巨大。

万兴科技（300624.SZ）成立于2003年，并于2018年登陆A股创业板，是全

球领先的新生代数字创意赋能者，致力于成为全世界范围内有特色、有影响力

的百年软件老店。

公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意

软件产品与服务，赋能人们在数字时代与众不同地进行创意表达，帮助每一个

新生代创作者将头脑中的灵感变为可见的现实。

万兴科技也是中国政府认定的“国家规划布局内重点软件企业”，连续跻

身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣

誉榜。公司正以前瞻的视野推进全球化布局，研发总部位于深圳，并在温哥华、

东京、长沙等地设有运营中心，业务范围遍及全球200多个国家和地区。

万兴科技持续深耕数字创意软件领域，旗下明星产品包括万兴喵影、万兴

优转、亿图图示、Filmora、Filmstock、Fotophire等。以AI技术赋能数字创意

为目标，让简单的创意无所不在。

本题着力于解决歌唱声音转换问题。歌唱声音转换可以为每一个人搭建歌

唱数据集，可以学习目标人音色，使用音频相关深度算法和模型框架，完成歌

曲中的音色替换。

本项目要求能够设计一个在不使用GPU的环境下运行, 在精细度、速度和模

型大小上取得平衡的最佳化的算法模型。

此外，本项目要求实施者自行以收集开源数据或自主建立数据的方式收集

数据、建立音频多人声分离算法模型。并完成模型训练、优化、工程化（python

60中国大学生服务外包创新创业大赛组委会

或C++皆可）等工作，最终产出一个可执行程序，针对5个目标音色进行歌唱声

音转换。

将目标音色迁移到想唱的歌曲上，具体要求如下：输入目标人声，选定需要

转唱的歌曲，使用目标人音色替换原始人音色，并保证音频的质量不会发生太

大的降低，需要保证替换音色后的音频在自然度和相似性上可以得到保证，最

后将生成的歌曲和伴奏整合，输出转唱的歌曲。可以使用以下链接来测试期望

效果的客观指标：https://github.com/gabrielmittag/NISQA

在此项目中，按照课题要求自行进行数据采集和数据清洗，用于训练的音

频数量自定，建立合适的网络模型框架进行训练，针对歌唱声音转换效果和性

能进行参数调整、模型优化；提供PC端可执行程序入口，对本次提供的5个目标

音色和2首示例歌曲进行歌唱声音转换的效果呈现。

模型大小

不超过400MB，越小越好，需要注明模型精度格式

(FP32,FP16,INT8)。

算法性能指标

在interl i7 CPU 处理一个时长5分钟的音频，时间不超过3分

钟。

效果指标

（1）主观评价MOS：从歌曲的自然度和相似性方面打分，取平

均值。

（2）客观评价（详细计算过程可参考对应指标的原始论文）：

STOI：

计算步骤：

①STFT（对音频做短时傅里叶变换）；

②1/3倍频分析；

③归一化和裁剪；中国大学生服务外包创新创业大赛组委会

④计算干净语音和带估计语音频谱间的线性相关系数，并统计

均值。

PESQ：

计算步骤：直接试用使用python的pesq库进行得分计算。

（1）项目概要介绍;

（2）项目简介PPT;

（3）项目详细方案;

（4）项目演示视频;

（5）企业要求提交的材料：

①项目简介PPT中除大赛统一要求外，需包括：项目执行思路介绍；所使用

的算法模型、优化、项目工程化过程介绍；算法及模型的优劣势、技术指标达

成情况介绍；对5个目标音色进行多人声分离的结果展示等；

②项目详细技术方案文档：详细描述算法实现的技术方案及原理；

③本地化可执行程序：在本地运行一个无需额外部署环境的exe可执行文件，

向可执行文件中输入一个歌曲，和一个目标音色，程序自动输出带有该目标音

色的歌曲。

（6）团队自愿提交的其他补充材料。

（1）明确业务需求定义，根据定义收集、筛选、清洗出合适的视频数据集；

（2）深度学习模型调研、设计和训练；

（3）模型优化改进（模型效果改进或模型压缩加速等）；

（4）模型的效果评估以及处理效率（模型测试平台、音频前处理、音频后

处理以及模型前向推理时间）；

（5）模型大小、参数量（Params）和计算量（Flops）；

（6）深度学习算法工程化，提交可进行验证的包含全部依赖的python或C++

例程(提示:推理框架有openvino、ncnn、tvm、mnn、onnx等）。

62中国大学生服务外包创新创业大赛组委会

开发工具：深度学习框架建议使用pytorch1.8.1及以上版本，C++程序建议

使用Visual Studio 2017及以上版本。

无

参考论文:

（1）Xue H, Wang X, Zhang Y, et al. Learn2sing 2.0: Diffusion and

mutual information-based target speaker svs by learning from singing

teacher[J]. arXiv preprint arXiv:2203.16408, 2022.

（2）Liu S, Cao Y, Su D, et al. Diffsvc: A diffusion probabilistic

model for singing voice conversion[C]//2021 IEEE Automatic Speech

Recognition and Understanding Workshop (ASRU). IEEE, 2021: 741-748.

（3）倪欣,任佳.基于高分辨率网络和自注意力机制的歌声分离算法[J].浙

江理工大学学报, 2022(003):047.

参考博客：

https://zhuanlan.zhihu.com/p/631685001

https://zhuanlan.zhihu.com/p/589891467

https://www.cnblogs.com/Edison-zzc/p/17568531.html

歌姬diffsinger paddlehub歌声