LHY2022-HW04-Speaker Identification

发布时间 2023-09-11 01:18:38作者: acmloser

1. 实验

1.1 背景介绍

  根据输入音频判断是哪个讲话者.
image

1.2 数据集

  数据集采用的是\(VoxCeleb2\).
image

1.2.1 Data formats

  目录下有三个json文件和很多pt文件,三个json文件作用标注在下图中,pt文件就是语音内容.
image

1.3 Model Architecture

  模型结构如下图所示,输入最后变成一个600维的向量.
image

1.3 Hint

  对于如何达到4条基本线,助教已经给予了提示.
image

1.3.1 Requirements - Simple

  对于\(Simple\)线,直接输入助教代码即可.
image

1.3.2 Requirements - Medium

  当要达到Medium线时,需要调参.
image

1.3.3 Requirements - Strong

  改变模型结构,将Medium转为Strong.
image

1.3.4 Requirements - Boss

  
image

1.4 Submission Format

  提交的文件格式如下.
image