sort file_name
当file_name文件里包含汉字时,并且文件编码不是utf8的时候,就可能会失效,你会发现相同的字符串,却不在相邻行
另外uniq命令也是,
uniq file_name
当file_name文件里包含汉字时,并且文件编码不是utf8的时候,就可能会失效,你会发现重复的行没有被去重掉
sort -u file_name
sort -u 问题会表现的更加严重,把不是相同的行,都给干掉了
解决方法
iconv -f cp936 -t utf-8 file_name | sort |uniq | iconv -f utf-8 -t cp936 >file_name.uniq
上面iconv命令转换了一次编码,cp936可能需要修改,你的文件是gbk的时候是cp936
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。