知识预备
在了解wrod2vec之前,我们需要了解sigmoid函数,贝叶斯公式,哈夫曼编码等内容。
使用过逻辑回归的同学应该了解,是一个定义域为(-∞,+∞),值域为(0,1),其定义为:
image.png函数图像如下:
image.png贝叶斯公式
哈夫曼(hufuman)编码
哈夫曼(hufuman)树的构造
简单来说,假设有给定 n个权值{w1,w2,w3,...,wn}, 我们可以把这些通通看成一颗树,每棵树只有一个节点。
1.从这些权值中找出最小的两个,合并构建一棵新的树,这两个权值分别作为新树的左右子树,新树的根节点则是子树根节点和相加。
2.n个权值中去除合并的值,添加新树的值,继续上一步骤,直至所有的权值合并完全。
举个例子:
hufumantree.png由图可见,权值越大的离根节点越近。