冰箱海尔182tmp

一文读懂为什么ALBERT还无法完全取代BERT

十三发自凹非寺

量子位报道 | 公众号 QbitAI

这就是谷歌去年提出的“瘦身成功版BERT”模型——ALBERT。

这个模型一经发布，就受到了高度关注，二者的对比也成为了热门话题。

而最近，网友Naman Bansal就提出了一个疑问：

是否应该用ALBERT来代替BERT？
能否替代，比比便知。
BERT与ALBERT
BERT模型是大家比较所熟知的。

2018年由谷歌提出，训练的语料库规模非常庞大，包含33亿个词语。
模型的创新点集中在了预训练过程，采用Masked LM和Next Sentence Prediction两种方法，分别捕捉词语和句子级别的表示。

BERT的出现，彻底改变了预训练产生词向量和下游具体NLP任务的关系。

时隔1年后，谷歌又提出ALBERT，也被称作“lite-BERT”，骨干网络和BERT相似，采用的依旧是 Transformer 编码器，激活函数也是GELU。

其最大的成功，就在于参数量比BERT少了80%，同时还取得了更好的结果。

如何实现自定义语料库(预训练)ALBERT？
为了进一步了解ALBERT，接下来，将在自定义语料库中实现ALBERT。

所采用的数据集是“用餐点评数据集”，目标就是通过ALBERT模型来识别菜肴的名称。

第一步：下载数据集并准备文件

1#Downlading all files and data 2 3!wget 4!wget 5!wget 6!wget 7!wget 8!wget 9!wget files and setting up ALBERT1213!pip install sentencepiece14!git clone ./ALBERT/create_pretraining_data.py –input_file “restaurant_review.txt” –output_file “restaurant_review_train” –vocab_file “vocab.txt” –max_seq_length=6416!pip install transformers17!pip install tfrecord
第二步：使用transformer并定义层

第三步：使用LAMB优化器并微调ALBERT

第四步：为自定义语料库训练模型

第五步：预测

实验结果
可以看到，模型成功地从用餐评论中，提取出了菜名。
模型比拼
从上面的实战应用中可以看到，ALBERT虽然很lite，结果也可以说相当不错。

那么，参数少、结果好，是否就可以替代BERT呢？

因为数据数据少了，分布式训练时吞吐上去了，所以ALBERT训练更快。但推理时间还是需要和BERT一样的transformer计算。

所以可以总结为：
在相同的训练时间下，ALBERT效果要比BERT好。在相同的推理时间下，ALBERT base和large的效果都是没有BERT好。
此外，Naman Bansal认为，由于ALBERT的结构，实现ALBERT的计算代价比BERT要高一些。

所以，还是“鱼和熊掌不可兼得”的关系，要想让ALBERT完全超越、替代BERT，还需要做更进一步的研究和改良。
传送门
博客地址：

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态