1. 实验

1.1 背景介绍

根据输入音频判断是哪个讲话者.

数据集采用的是\(VoxCeleb2\).

目录下有三个json文件和很多pt文件,三个json文件作用标注在下图中,pt文件就是语音内容.

模型结构如下图所示,输入最后变成一个600维的向量.

对于如何达到4条基本线,助教已经给予了提示.

对于\(Simple\)线,直接输入助教代码即可.

当要达到Medium线时,需要调参.

改变模型结构,将Medium转为Strong.

提交的文件格式如下.