如何解决检测巨大文件的编码
在 Java 中,有几个用于检测文本文件编码的库,例如谷歌的 juniversalchardet 和 TikaEncodingDetector。
虽然,对于大文件来说,这需要很长时间。
一种方法是在文件样本(即前 1000 个字节)上使用这些库。这样做的问题是它可能会切断中间的最后一个单词,这可能会“垃圾”它,从而将其识别为不同的编码。
我的建议 - 让我们从末尾删除字节,直到我们看到一个空格(32 ASCII)。这样我们保证不会“破坏”任何单词。
[ 在 UTF-16LE 中,每个字节后跟 '/0',因此为了处理它 - 如果空格的下一个字节是 '/0',我们将尝试使用和检测这个字节块没有前导'/0']
你认为这可行吗?
x <- c("07:31:21","12:03:55","21:07:01")
x %>%
as_hms() %>%
with_tz("America/New_York") %>%
as_hms()
02:31:21
07:03:55
16:07:01
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。