word2vec理论和实现及负采样技术

cs224n assignment2: Word2vec实现

本文是对cs224n_assignment 2实验中理论部分的总结。

原版lab 手册和code参见:

Stanford CS 224N | Natural Language Processing with Deep Learning

笔者完成了实验,code参见:
word2vec_lab

skip-gram思想:

用center word预测outside word。

定义参数:

定义两张表 U U U V V V,同时也是该网络唯一的参数。

处理center word时,查询 V V V,处理outside word,查询 U U U

查询结果( u i , v j u_i,v_j ui,vj )分别作为outside word和center word的词向量。

优化目标:

center word c预测到outside word为o的概率为:
P ( O = o ∣ C = c ) = e x p ( u o T v c ) ∑ w ∈ v o c a b e x p ( u w T v c ) P(O=o|C=c)=\frac{exp(u_o^Tv_c)}{\sum_{w\in vocab}exp(u_w^Tv_c)} P(O=oC=c)=wvocabexp(uwTvc)exp(uoTvc)
对应代码实现为:

import numpy as np
def softmax(x):
    """Compute the softmax function for each row of the input x.
    It is crucial that this function is optimized for speed because
    it will be used frequently in later code
	Arguments:
	x -- A D dimensional vector or N x D dimensional numpy matrix.
	Return:
	x -- You are allowed to modify x in-place
	"""
    orig_shape = x.shape

    if len(x.shape) > 1:
        # Matrix
        tmp = np.max(x, axis=1)
        x -= tmp.reshape((x.shape[0], 1))
        x = np.exp(x)
        tmp = np.sum(x, axis=1)
        x /= tmp.reshape((x.shape[0], 1))
    else:
        # Vector
        tmp = np.max(x)
        x -= tmp
        x = np.exp(x)
        tmp = np.sum(x)
        x /= tmp

    assert x.shape == orig_shape
    return x`
outsideWordVecs=np.random.rand(100,10) #U
centerWordVecs=np.random.rand(100,10) #V

centerWordIndex=1
centerWordVector=centerWordVecs[centerWordIndex]

softmax(np.dot(outsideWordVecs,centerWordVector)).shape
#(100,)

P P P表征预测词的概率分布,既然是分类问题,则使用交叉熵损失函数。记 o o o即为当前预测的target,则损失函数
L = − l o g ( P ( O = o ∣ C = c ) ) \mathcal{L}=-log(P(O=o|C=c)) L=log(P(O=oC=c))
网络的目标在于找到:
a r g U , V m i n   L arg _{U,V}min\ \mathcal{L} argU,Vmin L

下面讨论分析优化的过程,指出这个办法的性能瓶颈,并介绍改进的负采样技术

使用SGD的办法优化网络,梯度为:
∇ L = ( ∂ V L , ∂ U L ) \nabla\mathcal{L}=(\frac\partial{V}{\mathcal{L}},\frac\partial{U}{\mathcal{L}}) L=(VL,UL)
对于前一项,只需对 v 0 v_0 v0求导,其余地方梯度为0,不难证明:
∂ v c ( − l o g ( e x p ( u o T v c ) ∑ w ∈ v o c a b e x p ( u w T v c ) ) ) = ∂ v c l o g ( ∑ w ∈ v o c a b e x p ( u w T v c ) ) − ∂ v c l o g   e x p ( u o T v c ) = ∑ w ∈ v o c a b u w T e x p ( u w T v c ) e x p ( u w T v c ) − u o T = y ^ U − y U = ( y ^ − y ) U \begin{aligned} & \frac\partial{v_c}{(-log(\frac{exp(u_o^Tv_c)}{\sum_{w\in vocab}exp(u_w^Tv_c)}))}\\ & =\frac\partial{v_c}{log({\sum_{w\in vocab}exp(u_w^Tv_c)})}-\frac\partial{v_c}{log{\ exp(u_o^Tv_c)}}\\ & =\sum_{w\in vocab}\frac{u_w^Texp(u_w^Tv_c)}{exp(u_w^Tv_c)}-u_o^T\\ & =\hat{y}U-yU\\ & =(\hat{y}-y)U \end{aligned} vc(log(wvocabexp(uwTvc)exp(uoTvc)))=vclog(wvocabexp(uwTvc))vclog exp(uoTvc)=wvocabexp(uwTvc)uwTexp(uwTvc)uoT=y^UyU=(y^y)U
对于后一项,先对每一行(每个词向量)求偏导,再将他们拼起来。

即求 ∂ L u i \partial\frac{\mathcal{L}}{u_i} uiL即可,若 i ! = o i!=o i!=o:
∂ L u i = ∂ u i l o g ( ∑ w ∈ v o c a b e x p ( u w T v c ) ) − ∂ u i l o g   e x p ( u o T v c ) = v c e x p ( u i T v c ) ∑ w ∈ v o c a b e x p ( u w T v c ) = y ^ i v c \begin{aligned} &\partial\frac{\mathcal{L}}{u_i}\\ &=\frac\partial{u_i}{log({\sum_{w\in vocab}exp(u_w^Tv_c)})}-\frac\partial{u_i}{log{\ exp(u_o^Tv_c)}}\\ &=\frac{v_cexp(u_i^Tv_c)} {\sum_{w\in vocab}exp(u_w^Tv_c)}\\ &=\hat{y}_{i}v_c \end{aligned} uiL=uilog(wvocabexp(uwTvc))uilog exp(uoTvc)=wvocabexp(uwTvc)vcexp(uiTvc)=y^ivc
否则:
∂ L u o = ∂ u o l o g ( ∑ w ∈ v o c a b e x p ( u w T v c ) ) − ∂ u o l o g   e x p ( u o T v c ) = v c e x p ( u o T v c ) ∑ w ∈ v o c a b e x p ( u w T v c ) − v c = ( y ^ o − 1 ) v c \begin{aligned} &\partial\frac{\mathcal{L}}{u_o}\\ &=\frac\partial{u_o}{log({\sum_{w\in vocab}exp(u_w^Tv_c)})}-\frac\partial{u_o}{log{\ exp(u_o^Tv_c)}}\\ &=\frac{v_cexp(u_o^Tv_c)} {\sum_{w\in vocab}exp(u_w^Tv_c)} - v_c\\ &=(\hat{y}_{o}-1)v_c \end{aligned} uoL=uolog(wvocabexp(uwTvc))uolog exp(uoTvc)=wvocabexp(uwTvc)vcexp(uoTvc)vc=(y^o1)vc
不难发发现,对于每一次loss,更新 V V V只需一步,但更新 U U U需要很多步(遍历词表长度,才能得到对 U U U的完整梯度)

负采样:

想办法减少查询 U U U表的次数,只查询个别单词,即可减少计算量。约定目标预测正确答案(正样本)为 o o o,center word为 c c c,随机选择的负样本为 w s , 1 < = s < = k w_s,1<=s<=k ws,1<=s<=k,新的损失函数为:
L = − l o g ( σ ( u o T v c ) ) − ∑ 1 < = s < = K l o g ( σ ( − u w s T v c ) ) \mathcal{L}=-log(σ(u^T_ov_c)) - \sum_{1<=s<=K}log(σ(-u^T_{w_s}v_c)) L=log(σ(uoTvc))1<=s<=Klog(σ(uwsTvc))
就损失函数做以说明:

损失最小化的同时,我们希望网络预测正样本的可能性极大化,预测负样本的可能性极小化。

l o g ( σ ( u o T v c ) ) log(σ(u^T_ov_c)) log(σ(uoTvc))即为正样本对应概率,添加负号,即符合目标

∑ 1 < = s < = K l o g ( σ ( − u w s T v c ) ) \sum_{1<=s<=K}log(σ(-u^T_{w_s}v_c)) 1<=s<=Klog(σ(uwsTvc))即为负样本对应概率的相反数,再添加负号即符合最小化目标。

更详细的思路介绍,参考cs224n assignment 2的实验手册。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340