如何解决通过模式匹配过滤数据表
如果STRING列的内容通过模式匹配非常长的字符串的巨大向量,则需要过滤data.table。 我可以做到这一点,如下所示:
library(data.table)
library(stringi)
DB <- paste(unlist(lapply(1:10000,function(x){stri_rand_strings(1,runif(1,100,2000),pattern = "[A-Z]")})),collapse = " ") #why paste? In this way grepl does not have to iterate through all elements of DB,but it stops as soon as it finds a match
dt <- data.table(STRING = unlist(lapply(1:100,function(x){paste(LETTERS[runif(1,1,20):runif(1,20)],collapse = "")})),NN = 1:100)
dt[dt[,.(TF = !any(grepl(STRING,DB,fixed = T))),by = NN]$TF,]
尽管有效,但速度非常慢。考虑到我的数据库(大约200k个长字符串)和dt(大约80k行)的大小,预计到达时间将超过一天。 有什么办法可以改善吗?
注意:数据库中不包含重复的字符串,dt中的字符串中包含重复的字符串
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。