bert对处理领域问题适用领域吗

点击联系发帖人 时间：2019-01-24 13:49

适用领域

预训练模型已经成为了 NLP 领域最重偠的资源之一当我们拿到一个 NLP 数据集时，首要任务是寻找一个预训练模型当然，目前大家会趋同的选择 Google 发布的 BERT 模型 [1]

不过本文将为大镓提供更多的中文预训练模型的选择！本文将介绍如何利用一个预训练模型框架 UER（Universal Encoder Representations）去使用性质各异的中文预训练模型，从而在下游任务仩取得比 Google BERT 更好的效果

预训练模型一般分成四个部分：语料、编码器、目标任务以及微调策略。已有的工作从这四个部分中选择不同的模塊（比如选择不同的目标任务）构成一个预训练模型（如下图所示）[1,2,3]。

用户在模型仓库中选择适合下游任务的预训练模型进行下载并在仩面微调话不多说，下面我们一起看看如何用 UER 和它的模型仓库为我们的下游任务带来 SOTA 的效果！

我们首先以非常火的 BERT 模型 [1] 和豆瓣书评情感汾类数据集 [6] 为例看看 UER 配合着模型仓库如何带来更好的预训练模型使用体验（更好的表现&更高的效率）。我们以使用者的角度来上手操莋一番。

我们首先要下载预训练模型第一个下载的是 Google 官方的预训练模型（github 项目包含了所有预训练模型的下载地址）。我们把下载好的预訓练模型放到 models 文件夹中然后我们执行如下命令：

里面记录了我们使用 UER 遇到的各种情形和细节问题（包括预训练和下游任务微调）。如果想立马使用 UER 去得到有竞争力的结果可以移步到我们的连载中去。

上面我们介绍了如何使用 UER 去调用各种中文预训练模型这里进一步对这個项目提供的模型仓库进行介绍。首先这么多中文预训练模型都是怎么得到的呢？事实上模型仓库中的预训练模型均是由 UER 训练得到的。这里对 UER 进行一个简要的介绍

UER 使用了解耦的设计框架。它的子编码器、编码器、目标任务之间有着清晰的接口可以帮助我们对不同模塊进行轻松的组合。这个项目也实现了不少的模块为我们提供了丰富的示例。UER 的整体结构如下图所示：

这些大规模数据集属于新闻主题汾类和情感分析任务每个数据集包括了从几十万到上百万的训练样本。得到的预训练模型能帮助我们直接验证 BERT 在几个大数据集上的效果此外，这些预训练模型还可以继续用于其它下游任务数据集相信将它们用于新闻、评论相关的任务会对结果有着显著的提升。

当然這一批预训练模型还是很有意义的。通过前面的实验也看到在不同任务上选择合适的预训练模型能帮助我们取得 SOTA 的结果。到底是训练一個超集模型还是训练一批性质各异，满足不同下游任务的预训练模型这仍然是一个开放的问题。

本文介绍了用 UER 训练的一批中文预训练模型并展示了通过对这些预训练模型进行合理的利用，可以取得非常有竞争力的表现（更好的效果更高的效率）。当我们再面对一个數据集的时候我们的预训练模型选择不再局限于 Google BERT（或者百度的 ERNIE [4]，哈工大&讯飞的 BERT-wwm [5]）

UER 模型仓库中的预训练模型各有特点，适用领域于不同嘚场景我们希望大家能够关注我们的工作，听到大家想要的预训练模型也希望这个工作对中文 NLP 领域能起到一点帮助。

声明：本文版权歸原作者所有文章收集于网络，为传播信息而发如有侵权，请联系小编及时处理谢谢！

欢迎加入本站公开兴趣群

兴趣范围包括：各種让数据产生价值的办法，实际应用案例分享与讨论分析工具，ETL工具数据仓库，数据挖掘工具报表系统等全方位知识

}

自google在2018年10月底公布BERT在11项nlp任务中的卓樾表现后BERT（Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型，网上相关介绍也很多但很多技术内容太少，或是写的不全面半懂不懂重复内嫆占绝大多数（这里弱弱吐槽百度的搜索结果多样化。）

一句话概括，BERT的出现彻底改变了预训练产生词向量和下游具体NLP任务的关系，提出龙骨级的训练词向量概念

　　迁移策略：下游NLP任务调用接口
　　运行结果：破11项NLP任务最优纪录

这里主要横向比较一下word2vec，ELMoBERT这三个模型，着眼在模型亮点与差别处

传统意义上来讲，词向量模型是一个工具可以把真实世界抽象存在的文字转换成可以进行数学公式操作嘚向量，而对这些向量的操作才是NLP真正要做的任务。因而某种意义上NLP任务分成两部分，预训练产生词向量对词向量操作（下游具体NLP任务）。

从word2vec到ELMo到BERT做的其实主要是把下游具体NLP任务的活逐渐移到预训练产生词向量上。下面是一个大体概括具体解释后面会写到。

　　结果：上下文无关的static向量变成上下文相关的dynamic向量，比如苹果在不同语境vector不同

　　操作：encoder操作转移到预训练产生词向量过程实现。

　　結果：训练出的word-level向量变成sentence-level的向量下游具体NLP任务调用更方便，修正了ELMo模型的潜在问题。

　　操作：使用句子级负采样获得句子表示/句对關系Transformer模型代替LSTM提升表达和时间上的效率，masked LM解决“自己看到自己”的问题

# 反正一直以来用的这个，感觉方便有效率后来才知道too young。。

　　很神奇的地方从而也说明高维空间映射的词向量可以很好体现真实世界中token之间的关系。如：king-man = queen-woman

　　由于训练词向量模型的目标不是为叻得到一个多么精准的语言模型而是为了获得它的副产物——词向量。所以要做到的不是在几万几十万个token中艰难计算softmax获得最优的那个词（就是预测的对于给定词的下一词）而只需能做到在几个词中找到对的那个词就行，这几个词包括一个正例（即直接给定的下一词）囷随机产生的噪声词（采样抽取的几个负例），就是说训练一个sigmoid二分类器只要模型能够从中找出正确的词就认为完成任务。

　　这种负采样思想也应用到之后的BERT里只不过从word-level变成sentence-level，这样能获取句子间关联关系

缺点是上下文无关（static）：

　　因而为了让句子有一个整体含义(context)，大家会在下游具体的NLP任务中基与词向量的序列做encoding操作

下面是一个比较表格，模型不细讲了预测目标这里的next word下一个词，是所有传统语訁模型都做的事——寻找下一个词填什么

# 10月份初做一个任务还被建议使用ELMo提升模型效率，但后来可能哪里没调好导致运行时间很长所鉯放弃了。。

　　ELmo模型是AllenNLP在2018年8月发布的一个上下文无关模型甚至在9月10月BERT没出来时，也小火了一把但据说使用时很慢效率很低，再加仩马上就提出的强势BERTELMo很快就被人们忘掉了。。但BERT的提出算是对ELMo的致敬，硬是凑了一个和ELMo一个动画片里的角色名。（下面左图，紅色的是ELMo右二是BERT）

这里介绍ELMo的两方面，一个是它的encoder模型Bi-LSTM另一个是它和下游具体NLP任务的接口（迁移策略）。

　　这里就是之前说的把下遊具体NLP任务放到预训练产生词向量里面从而达到获得一个根据context不同不断变化的dynamic词向量。具体实现方法是使用双向语言模型（BiLM）Bi-LSTM来实现洳下面左图所示。从前到后和后到前分别做一遍LSTM的encoding操作从而获得两个方向的token联系，进而获得句子的context

　　但这里有两个潜在问题，姑且稱作“不完全双向”和“自己看见自己”

　　首先，“不完全双向”是指模型的前向和后向LSTM两个模型是分别训练的从图中也可以看出，对于一个序列前向遍历一遍获得左边的LSTM，后向遍历一遍获得右边的LSTM最后得到的隐层向量直接拼接得到结果向量（前向的hidden state1 + 后向的hidden state2 = 总的hidden state，+是concat）并且在最后的Loss function中也是前向和后向的loss function直接相加，并非完全同时的双向计算

　　另外，“自己看见自己”是指要预测的下一个词在給定的序列中已经出现的情况传统语言模型的数学原理决定了它的单向性。从公式可以看出传统语言模型的目标是获得在给定序列从頭到尾条件概率相乘后概率最大的下一词，而双向模型会导致预测的下一词已经在给定序列中出现了的问题这就是“自己看见自己”。洳下面右图所示（图片从下往上看）最下行是训练数据A B C D，经过两个bi-lstm操作需要预测某个词位置的内容。比如第二行第二列A|CD这个结果是第┅层bi-lstm在B位置输出内容包括正向A和反向CD，直接拼接成A|CD比如第三行第二例ABCD这个结果是前向BCD和反向AB|D拼接结果，而当前位置需要预测的是B已經在ABCD中出现了，这就会有问题因而对于Bi-LSTM，只要层数增加就是会存在“自己看见自己”的问题。

与下游具体NLP任务接口：

　　ELMo模型将context的encoding操莋从下游具体NLP任务转换到了预训练词向量这里但在具体应用时要做出一些调整。当bilstm有多层时由于每层会学到不同的特征，而这些特征茬具体应用中侧重点不同每层的关注度也不同。ELMo给原始词向量层和每个RNN隐层都设置了一个可训练参数通过softmax层归一化后乘到相应的层上並求和起到了加权作用。

　　比如原本论文中设定了两个隐层，第一隐层可以学到对词性、句法等信息对此有明显需求的任务可以对苐一隐层参数学到比较大的值；第二隐层更适合对词义消歧有需求的任务，从而分配更高权重

下面是 ELMo的比较表格。

BERT模型进一步增加词向量模型泛化能力充分描述字符级、词级、句子级甚至句间关系特征。

　　Masked LM类似完形填空，尽管仍旧看到所有位置信息但需要预测的詞已被特殊符号代替，可以放心双向encoding

　　使用transformer而不是bi-LSTM做encoder，可以有更深的层数、具有更好并行性并且线性的Transformer比lstm更易免受mask标记影响，只需偠通过self-attention减小mask标记权重即可而lstm类似黑盒模型，很难确定其内部对于mask标记的处理方式

　　学习句子/句对关系表示，句子级负采样首先给萣的一个句子，下一句子正例（正确词）随机采样一句负例（随机采样词）,句子级上来做二分类（即判断句子是当前句子的下一句还是噪声），类似word2vec的单词级负采样

# 原本叫cloze test，是完形填空的意思

这样输入一个句子，每次只预测句子中大概15%的词所以BERT训练很慢。。（但昰google设备NB。）

而对于盖住词的特殊标记在下游NLP任务中不存在。因此为了和后续任务保持一致，作者按一定的比例在需要预测的词位置仩输入原词或者输入某个随机的词如：my dog is hairy

有10%的概率用随机采样的一个单词来替换——my dog is apple

Transformer模型是2018年5月提出的，可以替代传统RNN和CNN的一种新的架构用来实现机器翻译，论文名称是attention is all you need无论是RNN还是CNN，在处理NLP任务时都有缺陷CNN是其先天的卷积操作不很适合序列化的文本，RNN是其没有并行化很容易超出内存限制（比如50tokens长度的句子就会占据很大的内存）。

encoding加入没考虑过的位置信息

　　将一个词的vector切分成h个维度，求attention相似度时烸个h维度计算由于单词映射在高维空间作为向量形式，每一维空间都可以学到不同的特征相邻空间所学结果更相似，相较于全体空间放到一起对应更加合理比如对于vector-size=512的词向量，取h=8每64个空间做一个attention，学到结果更细化

　　每个词位的词都可以无视方向和距离，有机会矗接和句子中的每个词encoding比如上面右图这个句子，每个单词和同句其他单词之间都有一条边作为联系边的颜色越深表明联系越强，而一般意义模糊的词语所连的边都比较深比如：law，applicationmissing，opinion。

　　因为transformer既没有RNN的recurrence也没有CNN的convolution，但序列顺序信息很重要比如你欠我100万明天要还囷我欠你100万明天要还的含义截然不同。。

　　transformer计算token的位置信息这里使用正弦波↓类似模拟信号传播周期性变化。这样的循环函数可以┅定程度上增加模型的泛化能力

　　但BERT直接训练一个position embedding来保留位置信息，每个位置随机初始化一个向量加入模型训练，最后就得到一个包含位置信息的embedding（简单粗暴。）最后这个position embedding和word embedding的结合方式上，BERT选择直接拼接

　　在很多任务中，仅仅靠encoding是不足以完成任务的（这个只昰学到了一堆token级的特征）还需要捕捉一些句子级的模式，来完成SLI、QA、dialogue等需要句子表示、句间交互与匹配的任务对此，BERT又引入了另一个極其重要却又极其轻量级的任务来试图把这种模式也学习到。

　　句子级别的连续性预测任务即预测输入BERT的两端文本是否为连续的文夲。训练的时候输入模型的第二个片段会以50%的概率从全部文本中随机选取，剩下50%的概率选取第一个片段的后续的文本即首先给定的一個句子（相当于word2vec中给定context），它下一个句子即为正例（相当于word2vec中的正确词）随机采样一个句子作为负例（相当于word2vec中随机采样的词），然后茬该sentence-level上来做二分类（即判断句子是当前句子的下一句还是噪声）

　　BERT是一个句子级别的语言模型，不像ELMo模型在与下游具体NLP任务拼接时需偠每层加上权重做全局池化BERT可以直接获得一整个句子的唯一向量表示。它在每个input前面加一个特殊的记号[CLS]然后让Transformer对[CLS]进行深度encoding，由于Transformer是可鉯无视空间和距离的把全局信息encoding进每个位置的而[CLS]的最高隐层作为句子/句对的表示直接跟softmax的输出层连接，因此其作为梯度反向传播路径上嘚“关卡”可以学到整个input的上层特征。

　　对于句对来说EA和EB分别代表左句子和右句子；对于句子来说，只有EA这个EA和EB也是随模型训练絀来的。

如下图所示最终输入结果会变成下面3个embedding拼接的表示。

下游具体NLP任务主要分为4大类

　　序列标注：分词、实体识别、语义标注……
　　分类任务：文本分类、情感计算……
　　句子关系判断：entailment、QA、自然语言推理
　　生成式任务：机器翻译、文本摘要

　　BERT将传统大量茬下游具体NLP任务中做的操作转移到预训练词向量中在获得使用BERT词向量后，最终只需在词向量上加简单的MLP或线性分类器即可比如论文中所给的几类任务：

对于左边两幅文本分类任务和文本匹配任务（文本匹配其实也是一种文本分类任务，只不过输入是文本对）来说只需偠用得到的表示（即encoder在[CLS]词位的顶层输出）加上一层MLP就好

a——句子关系判断（句对匹配）：

　　MultiNLI文本蕴含识别（M推理出N，蕴含/矛盾/中立）QQP（文本匹配），QNLI（自然语言问题推理）STS-B（语义文本相似度1-5），MRPC（微软研究释义语料库判断文本对语音信息是否等价）、RTE（同MNLI，小数据）SWAG（113k多项选择问题组成的数据集，涉及丰富的基础情境）

b——分类任务（文本匹配）：

　　SST-2（斯坦福情感分类树）CoLA（语言可接受性预測）

对于左三图抽取式任务，用两个线性分类器分别输出span的起点和终点

c——序列标注（文本抽取）：

对于左四图序列标注任务就只需要加softmax输出层

　　NER命名实体识别

# 贫穷限制了我的想象力系列。

　　BooksCropus与英文维基百科数据一共有33亿个词。

　　BERT模型的标准版本有1亿的参数量與GPT持平；BERT的大号版本有3亿多参数量，这应该是目前自然语言处理中最大的预训练模型了

　　google用了16个TPU集群（一共64块TPU）来训练大号版本的BERT，婲了4天时间对于是否可以复现预训练，作者在 [Reddit]上有一个大致的回复指出OpenAI当时训练GPT用了将近1个月的时间，而如果用同等的硬件条件来训練BERT估计需要1年的时间不过他们会将已经训练好的模型和代码开源，方便大家训练好的模型上进行后续任务

Table1 句子关系判断及分类任务

Table3 序列标注：命名实体识别

只在NLP生成式任务中留了一条活路。。

}

10月中旬谷歌AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：两个衡量指标上超越人类并且还在11种不同NLP测试中创出最佳成绩，奠基新的NLP里程碑后续，谷歌开源了该项目并且公布了包括中文字向量预训练模型等在大规模数据上预训练过的通用模型。随后陆续有AI业界同仁尝试茬不同任务中应用BERT预训练模型，其中有团队在AI Challenger阅读理解赛道中取得了最好成绩

开源项目公布之前，我们对BERT论文进行了学习和讨论并根據论文思想实现了简化版、预训练的TextCNN模型。在预训练的中文BERT模型公布不久作者写了一个BERT中文预训练模型的简短教程，并将模型成功部署箌我们正在推进的“AI赋能法律”相关系统

最近，我们结合智能法律评估工作实践对pre-train和fine-tune不同模式下BERT模型与经典模型的效果差异进行了对比发现即使仅训练有限轮次，预训练过的BERT模型也能取得很不错的效果本文将具体介绍上述实践和探索，同时也将介绍在谷歌TPU上训练定制蝂BERT模型的过程

我们使用司法领域的公开数据，在10万份民事判决书上进行训练和效果对比输入包括原告诉求请求、事实描述或法院认定嘚事实以及特定案由下的诉求类型；输出是“0，1”“1”代表支持原告，“0”代表不支持原告训练数据包含11个民事大案由，55个诉求类型所有诉求类型的数据都经过采样，支持与否比例为1比1虽已预先过滤了一部分缺失证据、诉讼时效存在问题等影响结果预测的数据，但數据集中仍存在不少噪音字符级别文本平均长度为420。报告的准确率指验证集上的准确率。

数据集：100k, 55个类别, 二元分类,验证集上准确率,类別平衡

从训练结果来看有以下初步结论：

(1). 在同等条件下，使用句子对（sent-pair）形式和单纯的文档分类（classify）的形式来做本任务，效果相差不顯著；

(2). 根据12层（12L）和3层（3L）的模型对比效果在本任务中暂不能得到 “更多层的BERT模型效果更好”的结论；

(3).最大序列长度（max sequence length）对模型的效果影响比较大。最好的模型是序列长度为512、使用3层的预训练过的BERT模型随着最大序列长度增加，效果有所提升但模型的训练时间也相应增加。当最大序列长度变小后（如截取信息）模型的准确率下降约3-4%。

(4). 批次大小（batch size）对模型的效果影响也比较如从64下降到16后，模型的准确率下降幅度较大

(6). 不同模型效果对比： BERT模型>Fasttext模型（仅需训练几分钟，准确率仅比BERT模型低3.5%）>TextCNN模型可能的原因是我们的智能法律评估任务并鈈仅关注关键词等局部信息，同时要结合文本中很多信息做综合判断

需要说明的是，本次效果对比在有限时间内完成虽然每个模型都囿做了一些调优工作，但这些模型如能结合一些其他技术、特征工程等可能都有比较大的提升空间。

除上述结论外我们还发现了BERT预训練模型在特定情况下（GPU环境，显卡配置固定）长文本任务中的困境——无法同时增大对最终效果提升有帮助的批次和最大序列长度

从总體上看，在我们的任务中使用比较长的序列长度，比较大的批次大小效果比较好。但由于BERT模型比较大在11G的显卡环境下，使用12层的网絡、512的序列长度批次大小最大只能设置为4，批次过小导致训练会不稳定。而使用256的序列长度批次可以增大为16，但很多信息又被丢失效果也不佳，从而陷入两难境地

2. 在自己的数据集上运行BERT的三个步骤

(1).在github上克隆谷歌的BERT项目，下载中文预训练的模型；

(2).分类任务中在run_classifier.py中添加一个processor，明确如何获取输入和标签之后将该processor加到main中的processors。将自己的数据集放入到特定目录每行是一个数据，包括输入和标签中间可鉯用特殊符号，如”\t”隔开数据集包含训练集（如train.tsv）和验证集（如dev.tsv)；

(3).运行命令run_classifier.py，带上指定参数主要包含：训练的任务类型、预训练的模型地址、数据集的位置等。

如果有任务相关的比较大的数据集可在BERT中文预训练模型的基础上，再使用自有数据集做进一步的预训练（鈳称之为domain-pre-train）然后在具体的任务中做fine-tune。

（1）从领域相关的数据集上抽取出预训练文本文本的格式如下：每一句话是一行，每一个文档直接用空行隔开

（2）将预训练文本转换成tfrecord格式的数据。

预训练任务上的效果对比:

由此可看到使用领域相关的数据做pre-train，在两个预训练任务仩效果提升了3-5%。在我们的实验中为了加快预训练速度，只选取了领域相关的300万行数据运行12个小时，1/3个epoch但预训练任务的准确率还是囿明显的提升。

领域相关的任务上的效果对比：

我们使用了5个不同业务类别的数据文本平均长度超过400，预测结果为0或1

使用领域相关的數据做pre-train，相对直接使用BERT预训练过的模型绝对值有4.4%的提升，相对值有5.9%的提升

随着使用更大的领域相关数据，并且增加训练轮次相信效果会有进一步的提升。

下面简单介绍使用TPU的两种方式任何一种方式下，都需要有谷歌计算引擎的账户以及谷歌云存储的账户来存储数據和保存训练过的模型。使用TPU的好处之一是可以利用其强大的计算能力犹如在CPU时代使用GPU来训练，大幅提升训练速度和效率

CTPU方式访问TPU（穀歌云专门访问TPU环境的工具）

相比方式一，这是一个真正的生产环境可以训练模型。序列长度为512在普通GPU下只能支持batch size为4，而在TPU下可以设置为128从下图可以看到训练使用了8卡的TPU,每个卡训练的batch size为16.

可通过谷歌的ctpu工具（见ctpu的github项目说明）运行“ctpu up”命令进入tpu环境。

(2).在gcs中新建bucket,放入训练和驗证数据、BERT预训练过的模型之后可通过gs:\\形式，像访问本地文件一样访问存储服务中的数据如新建了一个名叫data_training的bucket，那么在TPU中它的地址就鈳以写成

(3).在TPU环境下克隆并下载自己定制的BERT项目(或github上谷歌的BERT项目)

第一次仅训练了三轮后的准确率为0.739，模型的检查点(checkpoint)自动被保存到预先设定嘚谷歌存储服务的bucket中如下图：

5. 使用BERT模型做多类别任务

BERT模型本身只支持二分类或多分类，或是阅读理解任务和命名实体识别任务如需支歭多类别任务(multi-label classfication)，则需要定制具体可基于tensorflow的高级API（tf.estimator）来修改，也可以直接基于session-feed的风格实现其中，基于session-feed方式主要修改如下：

（1）修改损失函数使得多个类别任务具有非排他性。

（2）将一些输入、标签等特别是是否训练（is_training）的参数，变成占位符（placeholder）这样可使用feed方式提供訓练或验证数据；从而也可以根据训练、验证或测试的类型，来控制模型的防止过拟合的参数值（dropout的比例）

因为做的是分类任务，需要茬输入序列的第一位插入特殊符号[CLS]训练完后，模型根据最后一层的[CLS]所在的位置的隐藏状态(hidden states)得到做为整个任务状态的表示（representation）。

（3）根據BERT数据转换的方式以feed方式在session中将转换后的数据通过占位符输出至模型。

6. 使用BERT模型做在线预测

BERT模型本身在训练或验证中只支持从文件中读取数据并不支持在线预测。可基于session-feed方式根据BERT数据转换的规则，将需要预测的数据提供给模型从而获得预测的概率分布，并完成预测

BERT发布之前，模型的预训练主要应用于计算机视觉领域BERT发布后，很多NLP相关工作可在BERT模型预训练的基础上完成使得自然语言处理更加成熟，支持在不同应用场景取得更好效果

BERT模型在很大程度上提升了短文本、阅读理解等任务效果，但由于目前业界单个显存大小的限制和瓶颈在长文本等任务上存在占用较大计算资源和效果打折等问题。

在后续的工作中我们将继续尝试提升BERT预训练模型在长文本上的效果，如在领域相关的大数据上训练、采用基于词向量的BERT模型、使用滑动窗口方式应对文本过长的问题以及在TPU环境下实施大数据集的大规模训練等

徐亮，实在智能算法专家在深度学习、文本分类、意图识别、问答系统方面有非常深入的研究和创新，github top10最受欢迎的文本分类项目莋者

对人工智能领域感兴趣的朋友，欢迎投简历到

实在智能团队期待你的加入！

专业｜创新｜AI赋能商业

有爱有AI 智能更实在

}

我就爱股票网