您的当前位置:首页正文

word2vec 初步入门(1)---预备知识

来源:要发发知识网

知识预备

在了解wrod2vec之前,我们需要了解sigmoid函数,贝叶斯公式,哈夫曼编码等内容。

使用过逻辑回归的同学应该了解,是一个定义域为(-∞,+∞),值域为(0,1),其定义为:

image.png

函数图像如下:

image.png

贝叶斯公式

哈夫曼(hufuman)编码

哈夫曼(hufuman)树的构造

简单来说,假设有给定 n个权值{w1,w2,w3,...,wn}, 我们可以把这些通通看成一颗树,每棵树只有一个节点。
1.从这些权值中找出最小的两个,合并构建一棵新的树,这两个权值分别作为新树的左右子树,新树的根节点则是子树根节点和相加。
2.n个权值中去除合并的值,添加新树的值,继续上一步骤,直至所有的权值合并完全。

举个例子:

hufumantree.png

由图可见,权值越大的离根节点越近。