词向量是什么意思?

  • 最小正浮点数 varargin 实际输入 的参量 varargout 实际返回的参量 操作符与特殊字符 + 加 - 减 * 矩阵乘法 。

    * 数组乘(对应元素相乘) ^ 矩阵幂 。^ 数组幂(各个元素求幂) \ 左除或反斜杠 / 右除或斜面杠 。/ 数组除(对应元素除) kron Kronecker张量积 : 冒号 () 圆括 [] 方括 。 小数点 。。 父目录 。。。

  • 网络叹号怎么解决_常见问题解析解决网络叹号的方法:首先在使用静态IP地址的情况下,...

  • 其实这个东西也还挺好玩的,当然,前提是每道题你都有认真分析,认真想清楚模型的意义,搞明白为什么可以这样,而不是简单的知道怎样做,就套上一个模板了事,那样,是不是也太糟蹋这门科学了。  关于2-sat,基本...

  • P34 数据转换(一) 矩阵转换为数据框 数据框转换为矩阵 is判断类型和as转换类型 向量转换为其他类型 P35 数据转换() 取子集 删除固定行的数据 数据框的添加与合并 单独的行和列的添加 删除重复行列 P36 数据...

  • 拓扑结构上, 一个 USB 子系统并不是以总线的方式来分布; 它是一棵由几个点对点连接构成的树。这些连接是连接设备和集线器的4线电缆(地,电源, 和 2 个差分信号线), 如同以太网的双绞线。USB主控制器负责询问每个USB...

  • 如果,你知道什么是高斯随机变量,或者,你知道什么是正态分布的随机变量,你可以设置集合W,使其等于一个一行三列的N矩阵,并且,来自三个值,一个平均值为0的高斯分布,方差或者等于1的标准偏差。 还可以设置地更...

  • 最近在读一些深度学习的代码,不禁感叹别人代码的天工之作,再看看自己的代码,哇真是垃圾,有好多操作没见到过,所以也不会用,在这里做个记录,正如以人为鉴可以正衣冠… 1. **kwargs **kwargs表示关键字参数,...

  • 电脑的符号一共有32个,在编程时,在不同的场合,... 感叹号 逻辑运算时,【非】的意思,即相反,如果原来是真,那么加感叹号在前面就是假,如果原来是假,那么加感叹号在前面就是真 @ 地址号 编程时无特殊意义,通常作

  • 用于操作和与程序和着色器通信的OpenGL入口点在一个单独的规范定义。 错误处理 通常,编译器接受格式不良的程序,因为不可能检测到所有格式不良的程序。可移植性只保证了格式良好的程序,这是本规范所描述的。...

  • 在MATLAB创建矩阵有以下规则: a、矩阵元素必须在”[ ]”内; b、矩阵的同行元素之间用空格(或”,”)隔开; c、矩阵的行与行之间用”;”(或回车符)隔开; d、矩阵的元素可以是数值、变量、表达式或函数; e、...

  • 意思 既要求标签名是X 又要求标签的属性值包含的 由两个选择器构成 第一个为标签选择器 第个为class/id/伪类选择器 两个选择器之间不能有空格 (2)兄弟选择器: 兄弟选择器是CSS3.0新增的一个选择器 语法格式:...

  • 两条一样的INSERT语句竟然引发了死锁,这究竟是人性的扭曲,还是道德的沦丧,让我们不禁感叹一句:卧槽!这也能死锁,然后眼中含着悲催的泪水无奈的改起了业务代码。 好的,在深入分析为啥两条一样的INSERT语句也会...

  • “文章末页”,你在帮助页里面能了解到每个词表示的意思),把它放到右边第一行内( Default pattern )。   5 、顺便做一件事,美化文献题录显示:   点一下左边的“ Entry table columns ”...

}

词嵌入是NLP工作中标配一部分。原始语料是符号集合,计算机是无法处理符号集合的,因此如何将符集合中的字或者词或者句子甚至更粗粒度映射为向量至关重要。不严谨的讲,词嵌入(Word Embedding)是用一堆向量来表示语言中字或者词的意思。

常见的词嵌入如word2vec、glove、Fasttext等等,这些词嵌入模型基本原理就是:相似的词具有相似的向量表征。但是目前有一些争议,有些观点认为词向量是理想的表征,不同的模型会倾向于捕捉不同的语言信息而且在语法语义以及相似度中是不兼容的。造成这样的原因,原文分析是一词嵌入没有正式说明到底什么才是相似词,二则没有明确让模型捕捉哪种维度的词相似。

在原文中作者提出新的方法来定制word embedding需要捕捉的语言信息也就是哪种维度词相似度。原文贡献如下:

  • 构建一个转换函数,参数可以调整捕捉不同维度的word similarity。
  • 证实词嵌入的性能受限于要同时捕捉不同维度word similarity。
  • 展示词嵌入模型真正编码是哪种维度的word similarity。
  • 将词嵌入作为输入特征的有监督的训练具有足够的表达能力来学习相关任务的最佳word similarity。

在语料给定的情况下,词嵌入会有确定的词嵌入矩阵,它是语料中所有词向量组成的矩阵记为 ,其中词典中第 个词的词向量就是 。那么第 和第 个词的相似度可以表示为: 。定义一个相似度计算的公式:
这个就是一个求相似度的公式,则 。上式也被叫做一阶相似度度量,原文受启发于一阶和二阶共现,提出了 阶相似度度量的公式。当 时,上式就变为: 。意思为当两个词可能不是直接相似,但它们两个可能都与第三个词相似,那么这种关系就体现在它们在二阶相似度上(这个观点原文来自于1998年的Computational Linguistics Special Issue on Word Sense Disambiguation)。因此可以类推出 阶相似度度量公式:
原文中所提出的变换函数就是在不是改变相似性度量前提下,作者通过线性变换来改变单词嵌入本身,达到可以直接捕获第二或第 阶相似度。具体做法是:先对词嵌入矩阵做奇异值分解 ;然后定义线性转换矩阵 ,与原始的词嵌入矩阵 相乘得到 ;最后代入一阶相似度计算公式中得到: 。这样就实现了用一阶相似度得到二阶相似度。更为广泛的,将线性转换矩阵设置为 ,这样调整 就可以得到得到不同的相似度。具体的如:

当 可以得到一阶相似度, 可以得到二阶相似度, 可以得到 阶的相似度。

上述工作就是原文作者所提出的后处理(post processing)最为主要的目的就是通过调整 来得到不同的相似度度量,进而可以展示不同维度的word similarity。上面所说的 也可以取到负值。当 取负值的时候,通常用来减少相似度,或者将 阶相似度退化到更低阶相似度。

注意当然相似度阶数的退化是不对称的,可能是因为相似度计算不是线性的函数。另外 的值相较于离散的 阶相似度值来说,它是一个连续的变量,意味着转换函数是平滑的,这正是我们想要的,并且后面的实验就是让 在 变化来展现捕捉不同维度的word similarity。

原文中,后处理是一个核心的亮点,但是它的评估实验--如何展示捕捉到的不同维度的word similarity更是精彩。这里它使用了两种评估:内部评估(Intrinsic evaluation)和外部评估(Extrinsic evaluation),大致对应了无监督训练(前者)和有监督任务(后者)。

3.1.1 评估数据及方式

做内部评估时,作者使用的是三个流行的模型:word2vec、Glove、Fasttext,并且使用了它们各自的预训练模型来训练各自的词向量。然后将它们庞大的单词表限制在200,000词以内,得到词嵌入矩阵。接着将词嵌入矩阵按上述的后处理, 并且每次增加0.05。最后的评估任务分为两个,对应着word similarity的两个维度,分别是词类比(word

词相似度分析任务中也有两类:

用于分析相关联(relatedness)的数据集:MEN,包含了3,000个相关联的词对。

ps:词相似度度量的是,在给定词对下,模型计算的相似度得分与人手工标注的标准之间相关性。

注意本文不是探索如何调整 来达到SOA的实验效果(虽然实验结果确实比原来提升很多),更为注重的是经验上的探索。

使用后处理后,在三个嵌入模型上调整最佳的 原文得到了比之前模型更优的性能。验证了原文做法的意义。原文通过转换函数,调整不同的 来得到不同维度的word similarity,使得嵌入模型在捕捉不同语言信息的时候有了偏重。具体分析如下:观察word analogy这一栏,对比semantic和syntactic来说, 取较大值时,模型偏重于捕捉syntactic的信息,当 取较小值时,模型偏重于捕捉semantic的信息。而且对于不同的模型捕捉不同语言信息的 之差(如word2vec中 )也相似但是中心点不一样,证明不同嵌入模型捕捉的semantic和syntactic平衡点不一样。

图2是Alpha与relative error reduction关系,更好的说明上述结论。图2也说明了标准的词向量模型已经可以编码足够的信息让它在词类比中表现的更加优秀,但是这种优秀会被同时捕捉语法和句法的均衡中受到限制

从图1中,原文也可以得到上述的结论。但是,其中有个有趣的现象,就是当进行genuine similarity评估时,原始的词嵌入模型Fasttext比Glove性能高出10%左右,但是经过调整 后,可以看到两者的性能是接近的。原文作者分析,原始词嵌入的性能提升有时仅仅是错觉而不真的是提升。

评估内容是将词嵌入作为输入特征输入到模型中完成NLP任务。这里的NLP任务是STS Benchmark dataset,具体是评估模型为句子对的相似度打分。为了比较,原文作者构建了一个简单的模型centroid--计算余弦相似度,和另一个2016发布的现成的模型Decomposable Attention Model (DAM)。

通过图5可以看出相较于DAM,centroid对后处理方法更为敏感。而且对于Centroid方法,负值 有利于性能提升,但过了最佳值后会快速下降;对于DAM方法,正的 值有利于提升性能,过来最佳值也会下降但相较于上面的方法,严重程度低一些。其实,原文作者也分析了DAM出现这种情况的原因是:DAM中已经包含了一个线性函数。两个线性函数作用之后就变成了另外一个线性函数,因此对实验产生了偏差。

原文作者将外部评估和内部评估在一起比较,可以发现将词嵌入作为输入特征的有监督的训练具有足够的表达能力来学习相关任务的最佳word similarity。

这篇论文的思路是非常清晰,而且关注的点也非常的基础。同时实验的论证也非常精彩,向我们展示了词嵌入模型的强大能力!最为核心的就是通过调整不同的 就可以让模型捕捉不同的语言信息。

}

我要回帖

更多关于 word2vec词向量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信