欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

BERT衍生文本模型(2019)

ALBERT(2019)

目标是探索出来一个轻量级的bert

  • 随着参数的增加,在没有明显过拟合的情况下,原始的bert性能是会下降;所以增加参数不是万能的
  • 通过并行化和优化内存管理加速bert,都只是从工程上对bert进行优化,并未真正解决模型角度的问题
  • albert提出来两种减少参数的方式,从而达到缩放模型的目的
    • 分解embedding矩阵为两个小矩阵,同时方便了隐层参数的扩充
    • 跨层参数共享,类似正则的作用,奥卡姆剃刀
  • 参数共享+矩阵分解,导致参数变少了,可以通过增加层数(计算量)得到更好的性能
  • 使用语句的顺序loss,bert是同一个doc预测的loss
  • word embedding的维度和隐层输入/输出的大小理论上应该是没有直接关系的,以前word embedding维数太大,通过乘以一个矩阵的形式实现对word embedding维度缩小后对齐隐层的桥梁;
  • Transformer中的的参数前人已经有探索,但是主要是对encoder-decoder结果,并不是pretraining
  • 推测BERT中的next sentence预测在一些下游任务中是负优化的原因是这个任务太简单了,所以使用预测sentence order的方式,从别的doc中抽的sentence明显比较容易区分;预测两个句子是不是连贯和预测两个句子是不是一个主题,明显第一个比较难;
  • mask的时候使用的是ngram mask
WeChat Screenshot_20191019164929

base版本的训练速度并没有较大提升,large版本的有较大提升2.4x

RoBERT

RoBERTa: A Robustly Optimized BERT Pretraining Approach
  • 认为原始的bert是训练不足的,去掉了next sentence的任务;使用更多的数据和更大的模型更大的batch size;动态的改变mask pattern;
  • bert的mask预测的目标函数是有竞争力的,通过合理的设置可以打败以前各种花式目标
  • 只有土豪才玩得起:使用1024块V100,训练一天

 

UNILM

Unified Language Model Pre-training for Natural Language Understanding and Generation
  • 使用三个任务进行训练,分别为MASK语言模型、传统语言模型、seq2seq模型

screenshot

screenshot_1

通过设计mask矩阵,实现对output的控制,i行,表示第i个词可见的词

 

未经允许不得转载:大数据算法 » BERT衍生文本模型(2019)

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站