在调查一个错误时,我遇到了奇怪的行为
$export LC_ALL=en_US.UTF-8 $sort part-r-00000 | uniq -d ɥ ɨ ɞ ɧ 251 ɨ ɡ ɞ ɭ ɯ 291 ɢ ɫ ɬ ɜ 301 ɪ ɳ 475 ʈ ʂ 565 $export LC_ALL=C $sort part-r-00000 | uniq -d $# no duplicates found
当运行使用std :: stringstream读取文件的自定义C程序时,重复的操作也会出现 – 由于在使用en_US.UTF-8语言环境时重复的操作失败.
至少对于std :: string和input / output来说,C似乎不受影响.
为什么在使用UTF-8区域设置时找到重复项,而C语言环境中没有找到重复项?
导致此行为的文本的区域转换是什么?
编辑:Here是一个小例子
$uniq -D duplicates.small.nfc ɢ ɦ ɟ ɧ ɹ 224 ɬ ɨ ɜ ɪ ɟ 224 ɥ ɨ ɞ ɧ 251 ɯ ɭ ɱ ɪ 251 ɨ ɡ ɞ ɭ ɯ 291 ɬ ɨ ɢ ɦ ɟ 291 ɢ ɫ ɬ ɜ 301 ɧ ɤ ɭ ɪ 301 ɹ ɣ ɫ ɬ 301 ɪ ɳ 475 ͳ ͽ 475 ʈ ʂ 565 ˈ ϡ 565
输出问题出现时的区域设置:
$locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC=de_DE.UTF-8 LC_TIME=de_DE.UTF-8 LC_COLLATE="en_US.UTF-8" LC_MONETARY=de_DE.UTF-8 LC_MESSAGES="en_US.UTF-8" LC_PAPER=de_DE.UTF-8 LC_NAME=de_DE.UTF-8 LC_ADDRESS=de_DE.UTF-8 LC_TELEPHONE=de_DE.UTF-8 LC_MEASUREMENT=de_DE.UTF-8 LC_IDENTIFICATION=de_DE.UTF-8 LC_ALL=
编辑:归一化后使用:
cat duplicates | uconv -f utf8 -t utf8 -x nfc > duplicates.nfc
我仍然得到相同的结果
编辑:该文件是有效的UTF-8根据iconv – (从here)
$iconv -f UTF-8 duplicates -o /dev/null $echo $? 0
编辑:看起来像这样的东西:http://xahlee.info/comp/unix_uniq_unicode_bug.html
和
https://lists.gnu.org/archive/html/bug-coreutils/2012-07/msg00072.html
它在FreeBSD上工作
解决方法
$echo -e "\xc9\xa2\n\xc9\xac" > test.txt $cat test.txt ɢ ɬ $LC_COLLATE=C uniq -D test.txt $LC_COLLATE=en_US.UTF-8 uniq -D test.txt ɢ ɬ
显然,如果语言环境是en_US.UTF-8 uniq将ɢ和ɬ作为重复,那不应该是这样.然后我再次使用valgrind运行相同的命令,并用kcachegrind调查了两个调用图.
$LC_COLLATE=C valgrind --tool=callgrind uniq -D test.txt $LC_COLLATE=en_US.UTF-8 valgrind --tool=callgrind uniq -D test.txt $kcachegrind callgrind.out.5754 & $kcachegrind callgrind.out.5763 &
唯一的区别是,LC_COLLATE = en_US.UTF-8的版本称为strcoll(),而LC_COLLATE = C没有.所以我想到了以下strcoll()的最小例子:
#include <iostream> #include <cstring> #include <clocale> int main() { const char* s1 = "\xc9\xa2"; const char* s2 = "\xc9\xac"; std::cout << s1 << std::endl; std::cout << s2 << std::endl; std::setlocale(LC_COLLATE,"en_US.UTF-8"); std::cout << std::strcoll(s1,s2) << std::endl; std::cout << std::strcmp(s1,s2) << std::endl; std::setlocale(LC_COLLATE,"C"); std::cout << std::strcoll(s1,s2) << std::endl; std::cout << std::endl; s1 = "\xa2"; s2 = "\xac"; std::cout << s1 << std::endl; std::cout << s2 << std::endl; std::setlocale(LC_COLLATE,s2) << std::endl; }
输出:
ɢ ɬ 0 -1 -10 -1 � � 0 -1 -10 -1
那么这里有什么问题?为什么strcoll()为两个不同的字符返回0(相等)?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。