text-mining专题提供text-mining的最新资讯内容,帮你更好的了解text-mining。
<pre><code>import pandas as pd import numpy as np import csv import nltk from nltk.corpus import stopwords from nltk.stem import SnowballSte
我正在尝试构建一个函数,该函数接受数据框中的一列并返回一个包含单词及其计数的数据框 <pre><cod
我想尝试在一个 DFM 中同时使用 unigrams 和 bigrams 是否可以改进我的文档分类。我想在一个 DFM 中创建 unigr
我正在处理包含 7800 条推文的语料库,一切正常,但当我尝试使用 <code>stemCompletion</code> 将词干词转换为
嗨,我想编写一个自定义层,将反卷积层输出作为输入,计算张量和输入的一对一值之间的相似度。
我想使用 <code>TfIdfVectorizer</code> 对两组文档进行分类。但是 <code>TfIdfVectorizer</code> 会根据两个文档中的
首先,这不是重复的。我在类似的 wordcloud 导入错误中尝试了每一个答案。我用 pip 安装了它(检查了正
我想在 python 中使用 nltk 库。 但是当我运行代码时出现此错误: <pre><code>LookupError: ***********************
我需要将大量多页 pdf(大约 23,000 个文档,平均 30 页)处理为文本。由于文档是打字和扫描的,我想使
我有一个包含英语、西班牙语和德语文档的数据集。我想使用文档嵌入技术来表示它们来计算它们的相
我是python初学者(Python 3.8.8 mac),遇到pdf转文本过程中字母丢失的问题。 <ul> <li>我的问题:</li> </ul>
我在 R 中找不到答案的一个问题是,如何在 NLP 模型中为每个句子找到主导主题? 想象一下我有这样的
总的来说,我对 R 和编码非常熟悉。我最近一直在为一门语言学课程开展 CS 项目,通过该项目,我在<em>
我编写了下面的代码来在职位发布数据集中查找“国籍”这个词,我基本上是想看看有多少雇主指定给
简单地说,我有一个由 quanteda package(LD1) 创建的 DFM 列表。每个 DFM 都有不同长度的不同文本。 现在
我想从 CSV 文件中的可用文本中计算预定义字符串的出现次数,但找不到解决方案。 有人可以帮忙
我有一个文件夹,里面有大约 100 个文件 txt。我只运行简单的代码: <pre class="lang-r prettyprint-override"><
我写了以下内容,并且没有错误。 <pre><code>df2$qualifications &lt;- as.numeric(grepl(&#34;high school|Bachelor|master|p
我目前正在进行一个研究项目,我必须将 NHTSA 数据库 (<a href="https://catalog.data.gov/dataset/nhtsas-office-of-defect
我正在尝试编写一个函数来计算 h 点。该函数是在秩频率数据帧上定义的。考虑以下<code>data.frame</code>: