NLP - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python – 我可以使用现有的库或api来分离基于字符的语言中的单词吗？

我正在研究一个小业余爱好Python项目,该项目涉及使用该语言编写的大量文本为各种语言创建字典.对于大多数语言来说,这是相对简单的,因为我可以使用单词之间的空格分隔符将段落标记为字典的单词,但是例如,中文不会在单词之间使用空格字符.如何将一段中文文本标记为单词？我的搜索发现

python – 使用NLTK而不安装

使用NaturalLanguageToolkit学习Python非常有趣,它们在我的本地机器上运行良好,但我必须安装几个软件包才能使用它.究竟NLTK资源现在如何集成到我的系统中对我来说仍然是一个谜,尽管看起来很明显NLTK源代码不仅仅是坐在Python解释器知道找到它的地方.我想在我的网站上使用工具包

如何用PHP中的空格替换所有非字母数字字符？

$html=strip_tags($html);$html=ereg_replace("[^A-Za-zäÄÜüÖö]","",$html);$words=preg_split("/[\s,]+/",$html);这不是用空格替换所有非(A-Z,a-z,带有变音符号)的字符吗？我正在失去像zugänglich等用变音符号这样的词语正则表达式有什么问题吗？编辑：我用preg_re

使用Python从个人Gazetter命名实体识别

我尝试使用NLTK在python中进行命名实体识别.我想提取个人技能清单.我有技能清单,并希望在申请中搜索并标记技能.我注意到NLTK的预定标签有人物,位置等的NER标签.我可以使用Python中的外部gazetter标记器吗？任何想法如何做到比搜索术语更复杂(有时多词术语)？谢谢,阿萨夫解决方法:我

NLP项目,python或C.

我们正在研究阿拉伯语自然语言处理项目,我们限制了用Python或C(和Boost库)编写代码的选择.我们正在考虑以下几点：>Python>比C慢(目前正在努力使Python更快)>更好的UTF8支持>更快地编写测试并尝试不同的算法>C.>比Python快>熟悉的代码,每个程序员都知道类似C或C的代码项目完成

java – Stanford Dependency Parser – 如何获得跨度？

我正在使用Java中的Stanford库进行依赖解析.有没有办法在我的原始依赖字符串中找回索引？我试图调用getSpans()方法,但它为每个标记返回null：LexicalizedParserlp=LexicalizedParser.loadModel("edu/stanfordlp/models/lexparser/englishPCFG.ser.gz","-max

适用于Python的轻量级NLP框架

我现在正在使用spaCy来确定两个字符串之间的语义相似性.它运行良好,只需要几行代码,所有的工作都在幕后完成：>>>importspacy>>>nlp=spacy.load('en')>>>nlp('string').similarity(nlp('anotherstring'))0.796但是它需要大约600mb的模块数据.因为我在Heroku上主持这远

python – 正则表达式捕获2引号之间的部分

当试图在引文之间抓住这句话时,我似乎无法正确使用我的正则表达式.例如.以粗体显示(注意：输入前后有字符串)：“Icanquiteunderstandyourthinkingso.”Isaid.“Ofcourse,inyourpositionofunofficialadviserandhelpertoeverybodywhoisabsolutelypuzzle

python – 为什么adajcency矩阵的特征值实际上是Textrank中的句子分数

这是TextRank的路线：>汇总的文件表示为tf-idf矩阵>(tf-idf矩阵)*(tf-idf矩阵).Transpose=一些图的邻接矩阵,其顶点是实际上是上述文件的句子>页面排名适用于此图表–>返回每个句子的PR值现在,该PR值实际上是该邻接矩阵的特征值这背后的物理意义或直觉是什么？为什么Eigen值实际

NLP重大突破？一文读懂XLNet“屠榜”背后的原理

作者|李理原文链接：https://fancyerii.github.io/2019/06/30/xlnet-theory/本文介绍XLNet的基本原理，读者阅读前需要了解BERT等相关模型，不熟悉的读者建议学习BERT课程。语言模型和BERT各自的优缺点在论文里作者使用了一些术语，比如自回归(Autoregressive,AR)语言模型和

我很难找到一种方法来检测两个单词是否具有相同的英语押韵.它不是相同的音节结尾,而是更接近语音相似性的东西.我无法相信2009年这样做的唯一方法就是使用那些老式的韵律词典.你知道任何资源(在PHP中会是一个加分)来帮助我完成这项痛苦的任务吗？谢谢.你的提示都非常好.我会花一些

如何编写一个python程序,返回文本中至少出现5次的所有单词？

我只需要做这篇文章的标题所说的：编写一个python程序,它返回在文本中至少出现5次的所有单词.我意识到这是一个非常简单的问题.我是一个新手程序员,试图获得一些NLP技能,由于某种原因,我无法弄清楚这一点.非常感谢您的帮助！谢谢！解决方法:你应该用“word”来定义你的意思.不同的定义会

NLP入门十一从文本中提取时间

在我们的日常生活和工作中，从文本中提取时间是一项非常基础却重要的工作，因此，本文将介绍如何从文本中有效地提取时间。举个简单的例子，我们需要从下面的文本中提取时间：6月28日，杭州市统计局权威公布《2019年5月月报》，杭州市医保参保人数达到1006万，相比于2月份的989万，三个月

python – 在文件中突出但不完全重复的行

我正在梳理一个webapp的日志文件,以查找突出的语句.大多数线条相似且无趣.我会通过Unixuniq传递它们,但是没有过滤,因为所有行都略有不同：它们都有不同的时间戳,类似的语句可能会打印不同的用户ID等.什么是一种方法和/或工具来获得与其他任何一条明显不同的线条？(但是,再次,不是

NLP自然语言处理

NLP组成部分自然语言理解NLU将给定的自然语言输入映射为有用的表示。分析语言的不同方面。自然语言生成NLG文字规划-这包括从知识库中检索相关内容。句子规划-这包括选择所需的单词，形成有意义的短语，设定句子的语气。文本实现-这是将句子计划映射到句子结构。NLP术语音韵-

如何在NLTK中使用混淆矩阵模块？

我使用混淆矩阵跟随NLTK书,但confusionmatrix看起来很奇怪.#empiricallyexamwheretaggerismakingmistakestest_tags=[tagforsentinbrown.sents(categories='editorial')for(word,tag)int2.tag(sent)]gold_tags=[tagfor(word,tag)inbrown.tagged_wo

上一页 3 4 5 678 9 10 下一页

小编推荐

热门标签

Nvdia 显卡驱动录屏功能录制游戏