如何解决Azure搜索:日语搜索片假名和平假名
我已经使用ja.microsoft分析器创建了搜索索引,就我在katkana中搜索字符而言,它工作正常。但是,使用平假名字符时,搜索将不起作用,也不会返回搜索结果。
例如: 在平假名中搜索名称不能在片假名中找到名称,反之亦然: 要打“姥谷キツ”(名字在片假名中),尽管搜索“きつ”(在平假名中)。它没有得到它。 要搜索“元广あえか”(片假名中的语音字符),但搜索“アエカ”,则无法获取。
Azure搜索是否支持任何支持所有编写方案(平假名,kankana,kanji等)的分析器,或者我需要使用其他某种技术?
解决方法
Lucene和Microsoft日语分析器都不会为平假名生成片假名令牌,反之亦然。分析器将为给定的音节创建令牌。
您可以使用analyze API查看为特定字符串生成的令牌。
例如,使用以下输入调用分析API:
{
"text": "元廣 あえか","analyzer": "ja.microsoft"
}
返回:
{
"@odata.context": "https://service-name.search.windows.net/$metadata#Microsoft.Azure.Search.V2019_05_06.AnalyzeResult","tokens": [
{
"token": "元廣","startOffset": 0,"endOffset": 2,"position": 0
},{
"token": "あえか","startOffset": 3,"endOffset": 6,"position": 1
}
]
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。