如何解决Python NLTK提取包含关键字的句子
我的目标是从文本文件中提取包含我的关键字列表中任何单词的句子。我的脚本清理了文本文件,并使用NLTK标记了句子并删除了停用词。脚本的那部分工作正常,并产生看起来正确的输出 [“确认早前月提供的更新的2020年范围指引长期收益股息增长前景”,“最终期待增加参与度,现有的潜在投资者几个月就会来临,”转向” 我编写的用于提取包含关键字的句子的脚本无法按我想要的方式工作。它提取关键字,但不提取出现关键字的句子。输出看起来像这样; ['','',',',',',',',',',',',','impact','zone']
fileinC=nltk.sent_tokenize(fileinB)
fileinD=[]
for sent in fileinC:
fileinD.append(' '.join(w for w in word_tokenize(sent) if w not in allinstops))
fileinE=[sent.replace('\n'," ") for sent in fileinD]
#extract sentences containing keywords
fileinF=[]
for sent in fileinE:
fileinF.append(' '.join(w for w in word_tokenize(sent) if w in keywords))
解决方法
最后一行中的条件附加可能会导致问题,将其分解为较小的步骤会更直观:
w1 = Window.orderBy('date').rowsBetween(Window.unboundedPreceding,Window.unboundedFollowing)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。