如何解决如何将一个.txt文件读入R作为向量,每个单词都在其自己的行/行中
标题基本上是这样说的。我想将.txt文件读入R,其中所有空格和标点符号都有效地变成了换行符,将单词拆分为矢量或单列数据帧,其中行数等于文本文件中的单词数。
解决方法
我会先读取文件,然后将各行拆分为单词:
lines <- readLines("C:/Users/Johannes Gruber/Documents/Github/boellhessen/test.txt")
words <- strsplit(lines," ")[[1]]
head(words)
#> [1] "Title" "basically" "says" "it." "I'd" "like"
或者,您也可以使用tokenizers
,它更快,更准确。
better_words <- tokenizers::tokenize_words(lines,lowercase = FALSE,strip_punct = FALSE)[[1]]
head(better_words)
#> [1] "Title" "basically" "says" "it" "." "I'd"
由reprex package(v0.3.0)于2020-09-17创建
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。