如何解决将 KWIC / NLTK 的索引功能与语料库上的整个词典一起使用
我是一个无知的学生,必须使用 Python 和 Jupyter Notebook 为我的硕士论文修复 KWIC(上下文中的关键字)/一致性分析。我们不得不创建一本字典,里面有关于“数字化转型”的词。到目前为止,我们已经创建了两个文件 (.txt),其中包含与数字化转型相关的单个和多个关键字(总共约 300 个单词)。
然而,为了验证这些与数字化转型有关,我们必须使用 pyton/jupyther notebook 进行 KWIC 分析。即:
关键字前五个字 - 关键字 - 关键字后五个字
我已经整理好了如何在我的语料库中测试单个单词(大约 50 个 .txt 文件)
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = r'C:\Users\Gebruiker\Dropbox\MSc Change Chris\Master Thesis\Data\Missing files\Test'
wordlists = PlaintextCorpusReader(corpus_root,'.*',encoding='latin1')
corpus_tokens = wordlists.words()
然后我可以逐字逐句地执行此过程:
from nltk.text import Text
t = Text(corpus_tokens)
t.concordance('digital transformation',lines=50)
有谁知道如何将这个函数与我的 2 个 .txt 文件中的所有关键字一起使用,并创建一个长列表,其中每个关键字都被列出了大约 50 次,最好是在 Excel 文件中?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。