如何解决仅获得第一行匹配特定字符串-R
我在R中有个小标题。
tibble [9,760,576 x 2] (S3: tbl_df/tbl/data.frame)
$ word: chr [1:9760576] "dont know" "years ago" "im sure" "years old" ...
$ n : int [1:9760576] 7240 5127 5068 5017 ...
执行以下代码将获取与特定模式匹配的行(以“ year”开头的行)。
我只对与模式匹配的第一行感兴趣,因此我需要在首次出现该模式后停止搜索。欢迎任何建议。
df %>% filter(grepl("^year",word))
# A tibble: 17,117 x 2
word n
<chr> <int>
1 years ago 5127
2 year old 2444
3 years old 1692
4 years later 1103
5 years now 758
6 year ago 608
7 year will 409
8 years since 395
9 year year 325
10 years ive 303
我的问题是性能,原始数据集有1亿行,并且花费太多时间。
我也尝试使用stringi
软件包,但存在相同的问题(找到第一个匹配项后我无法停止搜索)
stri_match_first_regex(df$word,pattern="^year",
预先感谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。