如何解决SAPI v5.1的帮助SpeechRecognitionEngine与C#总是给出相同的错误结果
|| 我在玩这个SAPI v5.1库。因此,我正在测试样本WAV文件。 (从此处下载)。无论如何,该文件中的声音清晰清晰。它仅包含一个单词,即第三个单词。现在,当我运行以下代码时,我得到数字8或\“八\”。如果将其删除,则得到7。如果尝试随机化列表,则得到不同的结果,依此类推。我真的很困惑,开始认为SAPI库中的SpeachRecognition根本不起作用... 反正这就是我在做什么 private void button1_Click(object sender,EventArgs e)
{
//Add choices to grammar.
Choices mychoices = new Choices();
mychoices.Add(\"one\");
mychoices.Add(\"two\");
mychoices.Add(\"three\");
mychoices.Add(\"four\");
mychoices.Add(\"five\");
mychoices.Add(\"six\");
mychoices.Add(\"seven\");
mychoices.Add(\"eight\");
mychoices.Add(\"nine\");
mychoices.Add(\"zero\");
mychoices.Add(\"1\");
mychoices.Add(\"2\");
mychoices.Add(\"3\");
mychoices.Add(\"4\");
mychoices.Add(\"5\");
mychoices.Add(\"6\");
mychoices.Add(\"7\");
mychoices.Add(\"8\");
mychoices.Add(\"9\");
mychoices.Add(\"0\");
Grammar myGrammar = new Grammar(new GrammarBuilder(mychoices));
//Create the engine.
SpeechRecognitionEngine reco = new SpeechRecognitionEngine();
//Read audio stream from wav file.
reco.SetInputToWaveFile(\"3.wav\");
reco.LoadGrammar(myGrammar);
//Get the recognized value.
reco.SpeechRecognized += new EventHandler<SpeechRecognizedEventArgs>(reco_SpeechRecognized);
reco.RecognizeAsync(RecognizeMode.Multiple);
}
void reco_SpeechRecognized(object sender,SpeechRecognizedEventArgs e)
{
MessageBox.Show(e.Result.Text);
}
解决方法
您是如何创建WAV文件的?看起来比特率很高。识别器仅支持某些格式。尝试:
每个样本8位
单声道单声道
每秒22,050个样本
PCM编码
您有大约3秒的音频,文件大小为520 KB。对于支持的格式来说,这似乎太大了。
您可以使用RecognizerInfo类为识别器-RecognizerInfo.SupportedAudioFormats属性找到支持的音频格式(SupportedAudioFormats)。
更新:
您的音频文件有点混乱。很吵。它也是不受支持的格式。 Audacity将其报告为立体声,44.1 kHz和32位浮点型。我在开始和结束时将噪声静音,重新采样到22.050 kHz,移除了立体声轨道,然后将其导出为未压缩的8位无符号WAV。然后工作正常。
在Windows 7计算机上,默认识别器仅支持以下音频格式:
0:
Encodingformat = Pcm
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 16000
1:
Encodingformat = Pcm
BitsPerSample = 16
BlockAlign = 2
ChannelCount = 1
SamplesPerSecond = 16000
2:
Encodingformat = Pcm
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050
3:
Encodingformat = Pcm
BitsPerSample = 16
BlockAlign = 2
ChannelCount = 1
SamplesPerSecond = 22050
4:
Encodingformat = ALaw
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050
5:
Encodingformat = ULaw
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050
您还应该从语法中删除数字选项。现在,识别器返回两个替代项:\“ three \”和\“ 3 \”。这可能不是您想要的。您可以在语法中使用语义结果值来返回单词“三”的数字3。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。