nltk - 编程之家

我有一个庞大但简单的Pandas DataFrame。行看起来像这样： <pre><code>index Text 1 This is a sample text 2 I am

<h2>背景</h2> 我想知道在NLP中筛选专有名词后如何区分普通人的名字。 <pre><code>preferred output ['Hanna&#

下面的代码是我目前拥有的代码，它可以正常工作，但是它将诸如“ did n't”变为“ didn”和“ t”之类

我正在尝试使用NLTK RegexpTokenizer从抄本中删除正方形之间的所有文本： <pre><code>file = open('speakers.txt

<strong>是否可以将段落转换为多个句子，并使最大措词保持不变，并根据需要调整几个？</strong>

该代码摘录自第119页的《使用Python进行自然语言处理》。布朗语料库不同部分的模态频率。我的问题是

python的新手-我需要一些帮助来弄清楚如何在python中编写令牌生成器方法而不使用Nltk之类的任何库。我

我开始学习神经网络，并使用colab进行编码。在大多数情况下，执行任何有用的操作之前，您需要

我是NLTK的新手。到目前为止，我做得很好，直到遇到了这个问题。我尝试了多种方法来解决这个问题，

我尝试了一个简单的演示，以检查geograpy是否可以满足我的需求：<strong>尝试在非规范化地址中找到国家/

我一直在编写Python代码，以使用Python列表（<code>word_list</code>中包含的单词来查找文本文档中单词的频率

我有一个数据框，其中有一列是全文，有多个很长的句子。我使用<code>NLTK</code>来标记文本，但是现在我

我正试图找出一个福尔摩斯故事列表的反文档频率。看一下代码：反向文档频率是一个单词在多个

<pre><code>import numpy as np import nltk nltk.download('wordnet') from nltk.corpus import wordnet as wn def main(a): b = wn.s

我需要计算训练数据中每个令牌的频率，列出频率至少等于N的令牌列表。要将数据集分为训练和测试，

我试图像youtube视频<a href="https://www.youtube.com/watch?v=z9W2cvmFPuA&ab_channel=Codecademy" rel="nofollow noreferrer">Livest

<pre><code>from nltk.corpus import indian sentence_score={} #word=nltk.word_tokenize(text) for sent in sentences: word_count_in_sentenc

我想从一串句子中删除停用词，但是我的打印功能会返回包含所有停用词的确切字符串。这是我使用的

我正在将tesseract库用于Java。从食品封面提取文字，然后尝试从中提取食品名称。由于食品的封面上的食

我有一个大数据集，最近被介绍给Dask。我正在尝试标记每一行中的文本。如下所示，这在熊猫中很容易