我理解的 KWS 模型是这样的,基于 CTC 的 KWS 模型训练的输出是 2599 个 token 的概率,模型输入 N 帧 fbank 特征,输出也是 N * 2599 的概率矩阵,通过 CTC 的 beam search 去寻找可以匹配的关键字路径。在训练的过程中除了关键字的 token 其他的字也给了详细信息,而且每一帧输出的都是 2599 个 token 的概率,那么这个 KWS 模型应该不只是对关键词可以有很要的识别效果,对只要出现在字符集里面的字符应该识别效果也不错才对呀,为什么我在测试的时候,只有前面一部分含有关键词的 btach 的 acc 会达到 95 以上,其他的不含有关键词的 batch 的 acc 只有 10 % 左右,希望您看到问题可以回答一下疑惑,非常感谢🙏 @robin1001 @veelion @
我理解的 KWS 模型是这样的,基于 CTC 的 KWS 模型训练的输出是 2599 个 token 的概率,模型输入 N 帧 fbank 特征,输出也是 N * 2599 的概率矩阵,通过 CTC 的 beam search 去寻找可以匹配的关键字路径。在训练的过程中除了关键字的 token 其他的字也给了详细信息,而且每一帧输出的都是 2599 个 token 的概率,那么这个 KWS 模型应该不只是对关键词可以有很要的识别效果,对只要出现在字符集里面的字符应该识别效果也不错才对呀,为什么我在测试的时候,只有前面一部分含有关键词的 btach 的 acc 会达到 95 以上,其他的不含有关键词的 batch 的 acc 只有 10 % 左右,希望您看到问题可以回答一下疑惑,非常感谢🙏 @robin1001 @veelion @