启明办公

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
楼主: 初晴天

[NLP] 秒懂词向量Word2vec的本质

[复制链接]

0

主题

3

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-17 01:53:21 | 显示全部楼层
博主,我觉得关于那个word2vec训练trick那里: hierarchical softmax,本质是把 N 分类问题变成 log(N)次二分类;negative sampling:本质是预测总体类别的一个子集。这两个地方,是不是说的过于简要了,就拿hierarchical softmax来说,获取词向量的方式和原先的其实基本完全不一样,我初始化输入的也不是一个onehot,同时我是直接通过优化输入向量的形式来获取词向量,而不是像原先的拿的是输入层到隐层的权重作为词的向量。不知道我的理解是不是有问题?
回复

使用道具 举报

1

主题

5

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-1-17 01:53:53 | 显示全部楼层
您好,word2vec里面并没有用到onehot encoder,而是初始化的时候直接为每个词随机生成一个N维的向量;所以word2vec结构中不存在文章图中显示的将V维映射到N维的隐藏层。
回复

使用道具 举报

0

主题

3

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-17 01:54:52 | 显示全部楼层
又研究了一下,文章中的结构图来自Xin Rong 的论文word2vec Parameter Learning Explained,其本身是Mikolov原始word2vec模型的一种变体;而无论google还是gensim的源代码中,确实都没有用到onehot encoder。
回复

使用道具 举报

1

主题

4

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-1-17 01:55:28 | 显示全部楼层
我认为输入没有影响,只不过输出的时候,不再是onehot,而是Huffman tree 的编码
回复

使用道具 举报

1

主题

4

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-1-17 01:55:59 | 显示全部楼层
您的意思是输入还是onehot么,您可以看下楼上Steven的回复,我看到word2vec和他是一致的,所以我个人觉得和最原始的差别还挺大的。
回复

使用道具 举报

0

主题

4

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-17 01:56:55 | 显示全部楼层
参考我刚回复 Steven的,同时也就可以解释你的问题——所谓的随机词向量,就是one-hot 到隐含层的权重,我们所谓『优化输入的词向量』,其实就是优化的 one-hot 到隐含层的权重。
回复

使用道具 举报

2

主题

7

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-1-17 01:57:15 | 显示全部楼层
Mikolov 的 "Statistical Language Models based on Neural Networks" 里有提到,输入就是 one-hot。
回复

使用道具 举报

1

主题

6

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-1-17 01:57:49 | 显示全部楼层
待续 θ..θ
回复

使用道具 举报

1

主题

4

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-1-17 01:58:31 | 显示全部楼层
添加 one-hot 输入层只是为了让你理解的更直观。Bengio 那篇论文说是从一个随机化的初始词向量矩阵里,抽出一行作为输入。现在我们随机化 V维 one-hot 输入层到 N维隐含层之间的权重,那么对每个onehot,其隐含层的输出,就是从词向量矩阵里『抽取』一行这个过程,也正是你所说的『 N维随机向量』
回复

使用道具 举报

1

主题

2

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-1-17 01:59:28 | 显示全部楼层
这部分我大概理解了,还有一个问题就是如果用了hierarchical 结构我应该就没有输出向量了吧?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|启明办公

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表