您将如何将包含以下字符引用的文档转换为bash脚本中的实际可读字符?
ā á ǎ à ē é ě è ī í ǐ ì ǖ ǘ ǚ ǜ ü ǖ ǘ ǚ ǜ ü
这些改变是为了āáǎàēěěèíǐìǖǘǚǜǖǘǘǚǜü
如果您可以访问Perl,那么它相对简单:
perl -ne 'binmode STDOUT,":utf8";s/&#([0-9]*);/pack("U",$1)/eg;print' \ document.html
例:
#!/bin/bash html2utf8() { perl -ne 'binmode STDOUT,":utf8"; s/&#([0-9]*);/pack("U",$1)/eg; print' } echo 'testing 1 ā 2 Ĭ 3 ē' | html2utf8
生产:
testing 1 ā 2 Ĭ 3 ē
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。