GitHub

KWS

数据增强内容有4个：
1. 将两秒的含有关键字的音频截取一定的长度在和随机的背景音拼接，用来减弱关键词说一半误识别的错误
2. 添加随机噪音，添加两遍，将数据翻三倍
3. 在频谱图上随机mask，这里取横向纵向各随机mask两条线
4. dataset使用mixup，使用tensorflow中dataset.zip的方法创建

使用步骤（以xiaoai文件夹内的小爱同学示例）：

训练部分

注意： wav文件夹内放的都是2秒左右的音频，初始录制的长音频需要vad或者手动截取以下；bg文件夹内的背景音只要大于2秒即可。 vad的demo见vad和cut两个文件

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
bg		bg
wav		wav
README.md		README.md
cut.py		cut.py
cutmix.py		cutmix.py
dataaug-ir.py		dataaug-ir.py
dataaug-noise.py		dataaug-noise.py
dataloader.py		dataloader.py
filerename.py		filerename.py
model.py		model.py
prepro.py		prepro.py
t1.wav		t1.wav
t2.wav		t2.wav
test.py		test.py
train.py		train.py
utils.py		utils.py
vad.py		vad.py
writelist.py		writelist.py
ze.wav		ze.wav