如何解决如何格式化.wav数据以输入到密集的神经网络层?
我是音频处理领域的新手,需要一些帮助。
我目前正在为一个项目在C中实施预训练的Tensorflow Key Word Searching Neural Net(KWS NN)。该NN与one from the Simple Audio Recognition Tensorflow Tutorials几乎相同,甚至使用Speech Commands dataset.。它由几个密集层组成-供参考,this是KWS NN .pb文件的外观就像使用Netron可视化时一样。
我已经从预训练的模型中提取了权重,并编写了密集层乘法,但是没有知识来测试它对于给定的输入是否产生正确的输出。我希望能够从语音命令数据集中获取一些.wav文件,并将其转换为KWS NN的正确输入格式。从the first part of the Neural Net收集的数据来看,我需要解码.wav文件,将其转换为音频声谱图,然后将所有内容转换为一组MFCC。 然后,我可以将它们展平并输入到第一个密集层中。
我尝试了各种教程,但是似乎没有任何效果。有人对如何进行WAV>频谱图> MFCC转换有一些建议,以便我可以展平并将其馈送到密集层吗?
非常感谢。
找到预训练模型here!的.pb
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。