如何解决音素级发音正确性 Microsoft Speech
我正在尝试使用 Microsoft Cognitive Service 提供的发音评估服务(使用 Python API)。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有什么方法可以得到真正所说的音素细分吗?换句话说.. 可以根据参考文本获得检测到的音素而不是系统等待识别的音素作为输出?
这描绘了我目前拥有的输出。但不是获得组成“不能”这个词的音素,我想获得输出中传递的词的音素
{
"Word": "can't","AccuracyScore": 85.0,"ErrorType": "None","Offset": 39900000,"Duration": 6500000,"Phonemes": [
{
"Duration": 1300000,"Phoneme": "k","AccuracyScore": 89.0,"Offset": 39900000
},{
"Duration": 800000,"Phoneme": "aa","AccuracyScore": 86.0,"Offset": 41300000
},{
"Duration": 1600000,"Phoneme": "n","AccuracyScore": 74.0,"Offset": 42200000
},{
"Duration": 2500000,"Phoneme": "t","Offset": 43900000
}
]
},
提前致谢
解决方法
翻阅Github上Pronunciation assessment的文档和sample code,似乎可以通过print reference_text
来了解演讲者所说的内容。
您也可以通过 PronunciationAssessmentConfig.to_json()(pronunciation_config.to_json()
) 获取所有参数(包括其中的 reference_text
)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。