Doc2Vec最相似的向量与输入向量不匹配

如何解决Doc2Vec最相似的向量与输入向量不匹配

我有一个约有4万条记录的职位发布数据集。我使用NER字典中的约30 000个技能从描述中提取了技能。每个技能都代表一个唯一的标识符。

发布的技能编号分布如下:

平均15.12 | 标准11.22 | 最低1.00 | 25%7.00 | 50%13.00 | 75%20.00 |

我仅使用技能ID训练了word2vec模型,它或多或少都可以正常工作。我可以找到与给定技能最相似的技能,结果看起来还可以。

但是对于doc2vec模型,我对结果不满意。

我大约有3200个独特的职位,其中大多数职位只有很少的职位,而且其中很多人来自同一领域(“前端开发人员”,“高级javascript开发人员”,“前端工程师”) 。我特意去了各种职位,在doc2vec.TaggedDocument()中用作标签。我的目标是当我在docvecs.most_like()中输入技能向量时,看到一些相关的职位。

在训练模型后(我尝试了不同时期(100,500,1000)和向量大小(40和100)),有时它可以正常工作,但大多数时候却不起作用。例如,对于诸如[numpy,postgresql,pandas,xgboost,python,pytorch]之类的技能,我会获得与[家庭法院,代理,咨询,社会工作]之类的技能最相似的职位。

数据集大小可能有问题吗?还是文档的大小(我认为我的文字简短)?我还认为我误解了doc2vec机制,而忽略了它。我还想问一问,您是否知道其他(也许更高级)的想法,我将如何从技能集中获得相关职位,并比较两个技能组向量的相近或远近。

UPD:

我的数据中的职位名称是“标签”,技能是“单词”。每个文本都有一个标签。有3200个重复标签的40 000个文档。 7881个唯一技能ID出现在文档中。每个文档的平均技能单词数为15。

我的数据示例:

         job_titles                                             skills
1  business manager                 12 13 873 4811 482 2384 48 293 48
2    java developer      48 2838 291 37 484 192 92 485 17 23 299 23...
3    data scientist      383 48 587 475 2394 5716 293 585 1923 494 3

我的代码示例:

def tagged_document(df):
    #tagging documents
    for index,row in df.iterrows():
        yield gensim.models.doc2vec.TaggedDocument(row['skills'].split(),[row['job_title']])


data_for_training = list(tagged_document(job_data[['job_titles','skills']])

model_d2v = gensim.models.doc2vec.Doc2Vec(vector_size=50,min_count=2,epochs=100)

model_d2v.train(data_for_training,total_examples=model_d2v.corpus_count,epochs=model_d2v.epochs)

#the skill set contains close skills which represent a front end developer
skillset_ids = '12 34 556 453 1934'.split()                                                  
new_vector = model_d2v.infer_vector(skillset_ids,epochs=100)
model_d2v.docvecs.most_similar(positive=[new_vector],topn=30)

我最近一直在进行实验,发现如果我过滤掉少于10种技能的文档,效果会更好。尽管如此,还是有一些无关紧要的职位出现了。

解决方法

在没有看到您的代码(或至少是其主要选择的草图)的情况下,很难说出自己是否犯了射击脚上的错误,例如常见的“自行管理alpha”以下简陋的在线示例”问题:My Doc2Vec code,after many loops of training,isn't giving good results. What might be wrong?

(您经过测试的epochs的最小数量是100个,这似乎很可疑;当数据集的大小和每个文档的大小都足够时,发布的工作中通常会使用10-20个纪元,尽管可以通过更多次有时有助于处理更薄的数据。)

类似地,从您的描述中还不能完全清楚您的培训文档是什么样的。例如:

  • tags头衔和words技能是吗?
  • 每个文本都只有一个tag吗?
  • 如果有3,200个唯一tags和30,000个唯一words,难道只有3,200个TaggedDocuments或更多带有重复标题的
  • 每个TaggedDocument的平均技能词数是多少?

此外,如果您将单词向量(用于技能)用作查询向量,则必须确保使用实际训练那些词的训练模式。某些Doc2Vec模式,例如纯PV-DBOW(dm=0)根本不训练单词向量,但它们将以随机初始化的垃圾的形式存在。 (要么添加非默认dbow_words=1来添加跳过语法单词训练,要么切换到PV-DM dm=1模式,将确保单词向量在相同的坐标空间中被共同训练。)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 <select id="xxx"> SELECT di.id, di.name, di.work_type, di.updated... <where> <if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 <property name="dynamic.classpath" value="tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-