如何解决文字中最常见的n个字
我目前正在学习与NLP合作。我面临的问题之一是在文本中找到最常见的n个单词。请考虑以下内容:
text = ['狮子猴象杂草','虎象狮子水草','狮子杂草马可夫大象猴精','守卫象草财富狼']
假设n =2。我不是在寻找最常见的二元组。我正在搜索文本中出现最多的2个单词。像这样,上面的输出应为:
“狮子”和“大象”:3 '大象'和'杂草':3 '狮子'和'猴子':2 “大象”和“猴子”:2
等等。
有人可以提出解决这个问题的合适方法吗?
解决方法
这很棘手,但是我为您解决了问题,我使用空白检测elem是否包含3个以上的单词:-)因为elem包含3个单词,那么它必须是2个空白:-)在这种情况下,只有elem将返回2个单词
l = ["hello world","good night world","good morning sunshine","wassap babe"]
for elem in l:
if elem.count(" ") == 1:
print(elem)
输出
hello world
wassap babe
,
我建议如下使用buildscript {
ext.kotlin_version = '1.3.72'
repositories {
google()
jcenter()
}
dependencies {
classpath 'com.google.gms:google-services:4.3.3'
classpath 'com.android.tools.build:gradle:3.5.0'
classpath "org.jetbrains.kotlin:kotlin-gradle-plugin:$kotlin_version"
}
}
allprojects {
repositories {
google()
jcenter()
}
}
rootProject.buildDir = '../build'
subprojects {
project.buildDir = "${rootProject.buildDir}/${project.name}"
}
subprojects {
project.evaluationDependsOn(':app')
}
task clean(type: Delete) {
delete rootProject.buildDir
}
和Counter
。
combinations
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。