如何解决使用CNN和Librosa进行语音识别:我可以将MFCC和音频数据结合起来吗?
我正在构建CNN,用于与Librosa进行语音识别。我已经为每个音频文件提取了MFCC,并对音频数据进行了预处理。音频数据的尺寸为(93894,8000),而MFCC的尺寸为(93894,26,16)。由于它们的大小不同,我无法将它们输入相同的模型。我可以创建单独的模型,一些1D接收音频数据,一些2D接收MFCC,然后看看哪种模型效果最好。但是我希望将它们全部输入相同的模型中。有没有办法做到这一点?压平MFCC有意义吗?
解决方法
如果没有集成架构,就不可能将不同维度的数据输入到同一个神经网络中。我创建了不同的网络来处理 MFCC 和原始音频数据,就其价值而言,仅在 MFCC 上运行的模型更加高效和准确。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。