text-mining - 编程之家

我使用 gensim 计算给定笔记中单词的频率。应用以下代码后： <pre><code>from gensim import corpora dictio

我正在从网页中提取 pdf，想看看是否可以提取每个 pdf 的 xml 结构，并检查诸如作者、每个文档的标题等

好吧，我创建了 2 个列表： <pre><code>expensive <- c("wine","watch","book","books","

我是 Apache-Tika 服务器的新手。我正在尝试使用 Tika python 包从 pdf 中提取文本。它说当我们运行代码时它

我被难住了。我对 Python 和文本挖掘还是很陌生。我知道我需要做的事情非常简单，但我不知道如何使用

我正在使用 fugashi 从句子中提取单词。如何将 fugacy 字典中没有的新术语添加到字典中？例如，You

我有一个包含来自新闻机构的 7000 条推文的数据框。我想从提到美国城市或州的数据框中查找并提取每

您好，我是 Python 新手，我对 Python 不是很熟悉。我正在尝试标记我的数据。我有 1000 条客户评论，我创

我的代码问题有一个答案，要求我四舍五入第 1 部分：在下面的单元格中编写一行代码，显示以下

我正在尝试为来自 CFPB 的 <a href="https://www.consumerfinance.gov/data-research/consumer-complaints/" rel="nofollow noreferrer">

我在一行中有 40000 行用不同的 ID 填充，我正在尝试创建 Ngrams 以了解一组特定的 ID 出现在一行中，也出

我有一个文档术语矩阵“mydtm”，它是我在 R 中使用“tm”包创建的。我试图描述 dtm/corpus 中包含的 557

我的最终目标是将数千个 pdf 转换为语料库/文档术语矩阵，以进行一些主题建模。我正在使用 pdftools 包

我有一个包含近 90 列和大约 20 万个观察值的大型数据集。其中一列包含描述，因此它只是文本。但是，

我想使用文本中的词来预测特定的产品类别。我的问题是这样的：我能够创建一个图表，向我显示每个

我的数据如下所示： <div class="s-table-container"> <table class="s-table"> <头> <tr> <th>主题</th> <th>测量</th> </tr>

我从用户那里收集了许多动作命令序列，例如“前进、后退、跳跃、射击”。有一些命令序列是合理的

我正在对德国客户评论进行情绪分析，并希望实施否定处理。我决定在“not”之后的单词以及“not”之

我需要你的帮助。对于神经网络，我需要将单词更改为 word_index（例如 <code>company</code> --> 34、<code>

我一直在尝试导入 <strong>spacy</strong>，但每次都会出现错误。我用这一行来安装包： <pre><code>conda inst