如何解决计数器变大时会变慢吗?
def frequency_with_batch(textlines,freq_counter):
docs = nlps(textlines)
log_every_n = 100000
for i,doc in enumerate(docs):
log_every_n += 1
tokens = doc['words']
freq_counter.update(tokens)
我有一个40G的文本文件,我想计算单词的频率。它从文件读取,每批读取1000行。计数器是:
freq_counter = collections.Counter()
我的简介不正确。但是,当它运行时,通过查看日志似乎变得越来越慢。现在已经完成了3000万行的处理。我不明白为什么还有其他因素使它变慢。计算机内存为300G,足够大。
以这种方式使用时,计数器自然会变慢吗?
添加项:
- “令牌”是单词列表,由nlps()函数分割。
- 我省略了日志打印语句。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。