bert
XLNET
RoBERTa
ALBERT
ELECTRA
ERNIE
BERT-WWM
SpanBERT
TinyBERT
DistillBERT
参考

bert

输入：

Token Embedding:词向量
Segment Embedding:句子特征的嵌入
Position Embedding:词位置特征

输出：

MLM任务：通过其他的词预测杯掩盖的词
NSP任务：判断句子B是否为句子A的下一句

特点：

真正的双向
动态表征
并行运算能力
易于迁移学习

结构：

使用：

缺点：

预训练任务带有mask，但是下游任务mask没有出现
独立性假设：bert假设不同的mask之间相互独立，忽略了mask之间的相关性

XLNET

输入：

输出：

特点：

结构：

使用：

缺点：

RoBERTa

输入：

输出：

特点：

结构：

使用：

缺点：

ALBERT

输入：

输出：

特点：

结构：

使用：

缺点：

ELECTRA

输入：

输出：

特点：

结构：

使用：

缺点：

ERNIE

输入：

输出：

特点：

结构：

使用：

缺点：

BERT-WWM

输入：

输出：

特点：

结构：

使用：

缺点：

SpanBERT

输入：

输出：

特点：

结构：

使用：

缺点：

TinyBERT

输入：

输出：

特点：

结构：

使用：

缺点：

DistillBERT

输入：

输出：

特点：

结构：

使用：

缺点：

参考

万字长文带你纵览 BERT 家族

bert

"bert家族"

bert

XLNET

RoBERTa

ALBERT

ELECTRA

ERNIE

BERT-WWM

SpanBERT

TinyBERT

DistillBERT

参考

FEATURED TAGS