text-mining - 编程之家

<pre><code>import pandas as pd import numpy as np import csv import nltk from nltk.corpus import stopwords from nltk.stem import SnowballSte

我正在尝试构建一个函数，该函数接受数据框中的一列并返回一个包含单词及其计数的数据框 <pre><cod

我想尝试在一个 DFM 中同时使用 unigrams 和 bigrams 是否可以改进我的文档分类。我想在一个 DFM 中创建 unigr

我正在处理包含 7800 条推文的语料库，一切正常，但当我尝试使用 <code>stemCompletion</code> 将词干词转换为

嗨，我想编写一个自定义层，将反卷积层输出作为输入，计算张量和输入的一对一值之间的相似度。

我想使用 <code>TfIdfVectorizer</code> 对两组文档进行分类。但是 <code>TfIdfVectorizer</code> 会根据两个文档中的

首先，这不是重复的。我在类似的 wordcloud 导入错误中尝试了每一个答案。我用 pip 安装了它（检查了正

我想在 python 中使用 nltk 库。但是当我运行代码时出现此错误： <pre><code>LookupError: ***********************

我需要将大量多页 pdf（大约 23,000 个文档，平均 30 页）处理为文本。由于文档是打字和扫描的，我想使

我有一个包含英语、西班牙语和德语文档的数据集。我想使用文档嵌入技术来表示它们来计算它们的相

我是python初学者（Python 3.8.8 mac），遇到pdf转文本过程中字母丢失的问题。 <ul> <li>我的问题：</li> </ul>

我在 R 中找不到答案的一个问题是，如何在 NLP 模型中为每个句子找到主导主题？想象一下我有这样的

总的来说，我对 R 和编码非常熟悉。我最近一直在为一门语言学课程开展 CS 项目，通过该项目，我在<em>

我编写了下面的代码来在职位发布数据集中查找“国籍”这个词，我基本上是想看看有多少雇主指定给

简单地说，我有一个由 quanteda package(LD1) 创建的 DFM 列表。每个 DFM 都有不同长度的不同文本。现在

我想从 CSV 文件中的可用文本中计算预定义字符串的出现次数，但找不到解决方案。有人可以帮忙

我有一个文件夹，里面有大约 100 个文件 txt。我只运行简单的代码： <pre class="lang-r prettyprint-override"><

我写了以下内容，并且没有错误。 <pre><code>df2$qualifications <- as.numeric(grepl("high school|Bachelor|master|p

我目前正在进行一个研究项目，我必须将 NHTSA 数据库 (<a href="https://catalog.data.gov/dataset/nhtsas-office-of-defect

我正在尝试编写一个函数来计算 h 点。该函数是在秩频率数据帧上定义的。考虑以下<code>data.frame</code>：