2026/4/7 6:06:38
网站建设
项目流程
招聘网站代理,池州哪里做网站,门户网站价格,品牌宣传的推广构筑 AI 理论体系#xff1a;深度学习 100 篇论文解读
第二十篇#xff1a;赋予单词语义空间——Word2Vec (2013)
I. 论文背景、核心命题与作者介绍 #x1f4a1;
在 2013 年之前#xff0c;机器对单词的理解是孤立的。比如“猫”被表示为 [0, 0, 1, 0]#xff0c;“狗”是…构筑 AI 理论体系深度学习 100 篇论文解读第二十篇赋予单词语义空间——Word2Vec (2013)I. 论文背景、核心命题与作者介绍 在2013 年之前机器对单词的理解是孤立的。比如“猫”被表示为[0, 0, 1, 0]“狗”是[0, 1, 0, 0]。这种One-hot独热编码无法表达词与词之间的关系。Tomas Mikolov及其团队提出的Word2Vec通过“看一个词的邻居”来学习词的含义将单词转化为稠密的低维向量。核心作者介绍表格还原作者国籍机构2013 年时核心贡献Tomas Mikolov捷克Google提出了高效训练词嵌入的方法 CBOW 和 Skip-gram。Kai Chen中国Google核心架构开发者。Jeffrey Dean美国GoogleGoogle 大神支持模型的大规模并行实现。信息项详情论文题目Efficient Estimation of Word Representations in Vector Space发表年份2013 年出版刊物ICLR Workshop核心命题如何高效地将海量单词映射到低维、稠密的向量空间中使向量的几何关系能代表语义关系II. 核心机制词向量与“维度”的奥秘 ⚙️1. 什么是词向量Word Embedding词向量本质上是一串固定长度的数字。旧方法 (One-hot)向量长度等于字典大小通常是几万到几十万。Word2Vec向量长度被极大地压缩通常是 100 到 1000 之间。2. “维度”到底是多少由谁决定这是一个最常被误解的点。是多少常见的设置是300 维。这意味着每个单词都被表示为由 300 个实数组成的列表例如猫 [0.12, -0.5, 0.88, ... 共300个]。谁决定它是人工设置的超参数。在训练模型前研究员根据语料规模和任务复杂度来指定。层数关系Word2Vec 只有一个隐藏层。这层神经元的个数就等于词向量的维度。3. 这 300 个维度代表了什么通俗解释虽然机器不会给每个维度取名但你可以想象这 300 个数字代表了 300 个**“属性”**第 1 维可能代表是否是动物数字大表示像动物数字小表示像无机物。第 2 维可能代表是否具有高贵感国王和女王在这里数值都很高。第 3 维可能代表尺寸大小。结果“猫”和“狗”虽然在尺寸、动物属性上相似但在“叫声”属性上不同。通过这 300 个维度的综合评分机器就能在空间里精准定位每个词。4. 训练架构CBOW 与 Skip-gramCBOW“完形填空”。用上下文词周围的词预测中心词。适合小型数据集速度快。Skip-gram“举一反三”。用中心词预测周围可能出现的词。对低频词不常用的词理解更深刻。III. 历史意义神奇的向量运算 1. 语义平移Word2Vec 第一次证明了语义可以进行代数运算这说明模型在 300 维的空间里成功提取出了**“性别”**这个方向。2. 相似度计算通过计算两个向量之间的余弦夹角机器可以瞬间找出“电脑”的最相近词是“计算机”还是“西瓜”。IV. 零基础理解Word2Vec 到底干了啥 他们做了什么以前电脑认字就像看门牌号1 号房和 2 号房没啥关系。现在科学家给每个字发了一张“多维度体检表”。怎么做的体检项目维度科学家设定了 300 个体检项目维度。疯狂面试让电脑读几亿句话。如果“猫”和“鱼”经常在一起电脑就在“爱吃鱼”这个体检项上给它们打高分。生成坐标最终每个单词都有了 300 个分数。这些分数就是它的坐标。发现规律电脑惊讶地发现所有“水果”的坐标都聚在一起所有“动词”的坐标也聚在一起。结果机器终于不用死记硬背单词而是通过空间距离理解了人类语言的深层含义。下一篇预告Word2Vec 虽然厉害但它有个硬伤在它眼里“苹果”永远只有一个坐标。但“苹果”既是水果也是手机。下一篇第二十一篇我们将解读ELMo (2018)看它如何根据语境给单词生成“动态”的坐标。