text-mining - 编程之家

一直在尝试弄清楚如何在 GSDMM 中为每一行文本分配主题。尝试遵循 Pie-ton 的 (<a href="https://stackoverf

我在运行之前编写的相同脚本时遇到问题。那时，当我在 readtext 对象上应用 quanteda::corpus 时，它返回了

我在运行几周前编写的脚本时遇到问题，当时它运行没有错误。该脚本将读取数千个文件并从中创建一

我想构建一个表格，其中 n-gram 显示为一列，以及构建它们的数据帧的行号。例如，以下代码用于

目标是生成文本变量的频率并将相应的 ID 与其关联。假设 Sample 是一个如下所示的数据框： <pre

我正在尝试基于 1-gram（可以通过更改下面代码中的 n 将其扩展为 n-gram）频率聚合数据帧并将其他列与其

所以我有 4,000 个电子表格，其中包含以同一组列排列的数据。不是打开每个电子表格，而是复制所有数

我正在尝试使用 3 到 5 个字符的 n-gram 和 1 到 2 个单词的 n-gram，使用 Pipeline 和 GridSearch 运行管道，但我

我对 R 很陌生，但我有一个问题。我有一个数据集（长度为 1593 obs），其中包含一个字符类型变量，其

我尝试使用 Numba 启动代码，但出现错误。我想做的是用 cosinus_sparse 函数计算余弦相似度。这个类

我希望根据每个对话者拆分文本。原文是这样的： <块引用> 这是一个语音文本。第一人：大

最近，我构建了一个模型，可以使用 SpaCy 依赖项解析、基于规则的匹配器和 nlp.pipe() 检测数据集记录中

当我深入研究主题建模时，我不了解学习语料库和您要使用的文档的单个语料库的过程。 <ul> <li>它

在 R 中清理数据时，我想使用自定义字典（超过 400,000 个单词）。我已经将字典加载为大字符列表，我

作为初学者，我正在尝试使用 R 语言进行简单的文本挖掘 (NLP)。我使用 <code>tm_map</code> 函数预处理

我已经创建了LDA模型，为主题准备了名称及其关键词等。现在我想分析文档在主题上的分布。让我们想

我有要使用 Python 清理的文本数据（即仅保留字母数字字符）。但是，我遇到的大多数文本数据都包含表

我认为 read.lines() 或者 tm 包可能是解决这个问题的方法，但我想知道人们对阅读 .txt 剧本有什么建议。

我正在使用 R 中的 rvest 使用以下代码从本文页面中抓取文本关键字： <pre><code>#install.packages("xml2&#3

我正在尝试与 Polyglot 合作进行情感分析项目。两个简单的问题： 1- 我可以查询“单词”的极性 (<a