nltk专题提供nltk的最新资讯内容,帮你更好的了解nltk。
我有一个庞大但简单的Pandas DataFrame。 行看起来像这样: <pre><code>index Text 1 This is a sample text 2 I am
<h2>背景</h2> 我想知道在NLP中筛选专有名词后如何区分普通人的名字。 <pre><code>preferred output [&#39;Hanna&#
下面的代码是我目前拥有的代码,它可以正常工作,但是它将诸如“ did n't”变为“ didn”和“ t”之类
我正在尝试使用NLTK RegexpTokenizer从抄本中删除正方形之间的所有文本: <pre><code>file = open(&#39;speakers.txt
<strong>是否可以将段落转换为多个句子,并使最大措词保持不变,并根据需要调整几个?</strong>
该代码摘录自第119页的《使用Python进行自然语言处理》。布朗语料库不同部分的模态频率。我的问题是
python的新手-我需要一些帮助来弄清楚如何在python中编写令牌生成器方法而不使用Nltk之类的任何库。我
我开始学习神经网络,并使用colab进行编码。 在大多数情况下,执行任何有用的操作之前,您需要
我是NLTK的新手。到目前为止,我做得很好,直到遇到了这个问题。我尝试了多种方法来解决这个问题,
我尝试了一个简单的演示,以检查geograpy是否可以满足我的需求:<strong>尝试在非规范化地址中找到国家/
我一直在编写Python代码,以使用Python列表(<code>word_list</code>中包含的单词来查找文本文档中单词的频率
我有一个数据框,其中有一列是全文,有多个很长的句子。我使用<code>NLTK</code>来标记文本,但是现在我
我正试图找出一个福尔摩斯故事列表的反文档频率。看一下代码: 反向文档频率是一个单词在多个
<pre><code>import numpy as np import nltk nltk.download(&#39;wordnet&#39;) from nltk.corpus import wordnet as wn def main(a): b = wn.s
我需要计算训练数据中每个令牌的频率,列出频率至少等于N的令牌列表。 要将数据集分为训练和测试,
我试图像youtube视频<a href="https://www.youtube.com/watch?v=z9W2cvmFPuA&amp;ab_channel=Codecademy" rel="nofollow noreferrer">Livest
<pre><code>from nltk.corpus import indian sentence_score={} #word=nltk.word_tokenize(text) for sent in sentences: word_count_in_sentenc
我想从一串句子中删除停用词,但是我的打印功能会返回包含所有停用词的确切字符串。这是我使用的
我正在将tesseract库用于Java。从食品封面提取文字,然后尝试从中提取食品名称。由于食品的封面上的食
我有一个大数据集,最近被介绍给Dask。我正在尝试标记每一行中的文本。 如下所示,这在熊猫中很容易