text-mining - 编程之家

我正在尝试运行以下代码，但我收到了一个错误，需要解压的值太多代码是： <pre><code>import csv

我已经用大约 300 万个文档构建了一个 Doc2Vec 模型，现在我想将它与我之前构建的另一个模型进行比较。

我目前正在尝试使用 python 根据序列的相似性对序列列表进行聚类。例如： <块引用> DFKLKSLFD</

我正在使用 Python 3.7，我正在尝试使用正则表达式从一些文本文件中提取一些段落。这是 txt 文件

我正在寻找一种方法来使用机器学习来正确分类不适合预定义类的常见问题解答，并且应该归入“其他

我有维生素栏，人们可以在其中勾选他们服用的维生素（钙、维生素 D）等。还有一个“其他”栏用于未

我有一个使用 <code>readtext</code> 库读入软件的文本列表。 <pre><code>files <-readtext(paste0(wd), "/r/*.pdf&#

我正在处理命名实体识别 (NER) 任务，实体以 BRAT 格式 (.txt + .ann) 进行注释。在使用我的模型之前，我已

在 tidytext 包的帮助下，我正在尝试为个人示例计算所有二元组和三元组。然而，这个个人数据集有 100

嗨，我需要编写一个函数来计算 R1，其定义如下： R1 = 1 - ( F(h) - h*h/2N) ) 其中 N 是标记的数量

我的 df 结构如下： <div class="s-table-container"> <table class="s-table"> <头> <tr> <th>文字</th> <th>情绪</th> </tr> </

我正在处理一些文本数据，我将这些数据转换为 tf_idf 向量并输入 R 中的 XGBOOST 模型。测试数据的大小很

我正在尝试使用 NLTK 创建一个分类器，但是，我相信我的数据格式存在无法解决的问题。我的数据

我使用的是 R 编程语言。我学会了如何从互联网上获取 pdf 文件并将它们加载到 R 中。例如，下面我将莎

我想使用 Bert 训练一个多类文本分类任务。下面是进行Bert Tokenization的函数。当我将数据提供给模型时

我想撤销已应用于我的数据的标记化。 <pre><code>data = [['this', 'is', 'a', 'sentence'

我正在尝试计算文档中单词模式的频率。例如字型“自然语言处理”在文档中出现的次数。我尝试使用

我正在使用朴素贝叶斯预测具有 6 个类别的变量。公式为：班级~A+B 其中 A 和 B 是转换

这里我有一个数据框 <code>df1</code>，我想将其转换为数据框 <code>df2</code>。有人有任何建议/想法吗？ <

我使用的是 R 编程语言。使用以下 3 篇“文章”（莎士比亚的戏剧），我创建了一个“术语文档矩阵”