text-processing - 编程之家

我正在完成 NLP 练习，需要一些帮助来了解获得结果的最佳方法。我有两个文本文件，一个是单词列表，

我有一个很大的文本文件，里面有几个不同的人的名字和很长一段的陈述。文件格式为 .txt，我试图将名

我需要从 file1 中提取两个字符串之间的所有文本。第一个字符串是 file2 的每一行，第二个字符串始终是

这是一个与自然语言处理相关的问题。假设我有一个标记的火车和未标记的测试集。在我清理了训

这是我拥有的文本文件： <pre><code>@<TRIPOS>MOLECULE ***** 22 22 0 0 0 SMALL GASTEIGER @<TRIPOS>ATOM 1

我正在使用 <a href="http://crs4.github.io/hl7apy/tutorial/index.html#" rel="nofollow noreferrer">hl7apy</a> 创建一个 python 脚

我试图了解是否可以详细说明神经网络 2 输入字符串并预测结果字符串。我正在手动完成这项工作，这

我有一个像这样的管道分隔文件 <pre><code> OLD|123432 NEW|232322 OLD|1234452 NEW|232324 OLD|656966

当我尝试使用朴素贝叶斯分类器进行预测时，我遇到了维度错误。数据由一列句子和一列情绪（又

我有一个包含特定模式的列表，我想根据该格式创建和更新数据框。名单如下： <pre><code>text = ['c

我正在计算查询：<code>query2 = 'Audit and control, Board structure, Remuneration, Shareholder rights, Transparency and Perfor

我有一个 csv 文件，其中一些地址中间有一个逗号，因此我无法使用 <pre><code>$ awk -F',' 'length(

我有一个包含公司名称的数据框 df： <div class="s-table-container"> <table class="s-table"> <头> <tr> <th>公司

所以我有几个原始文本示例，我必须在其中提取“条款”之后的字符。我看到的常见模式是在 'Terms' 这

在一些插件的帮助下，我得到了一个包含科学文章信息的 .bib 文件。有时事实证明相同的键出现在不同

我有一些 ip 和 Mac 的文本文件。 Mac 的格式是 xxxx.xxxx.xxxx，我需要把所有的 MAC 都改成 xx:xx:xx:xx:xx:xx 我已

我有一个数据文件看起来像:: <pre><code># GROMACS # @ title "GROMACS Energies" @ xaxis label "Time (ps)&

我想将前四列留空，然后我想在最后四列中添加不带扩展名的文件名。我有文件 file.frq 并继续。稍后我

我有一个看起来像这样的文件： <pre><code>; [ atomtypes ] opls_BZCG BCG1 78.113999 0.000 A 2.9310E-01 1.9173E

我有一个很长的数据，它是用块构建的。在下面的示例中，让我们看到它们以 (AAA) 开头并以 (FFF)