The masked language model task is the key to bert and roberta. However, they differ in how they prepare such masking. The original roberta article explains it in section 4.1:
Dra Roberta Franco Pracz Nutricionista e Terapeuta (dra
Roberta:每次给模型看这句话的时候,才 临时、随机地 选择一些词进行 mask。 这意味着模型每次看到的同一句话,要填的“空”都可能不一样。 更大规模 更多的训练数据:bert 使用.
A robustly optimized bert pretraining approach 作者单位: 华盛顿大学 保罗·艾伦计算机科学与 工程学院,facebook ai 这篇文章是 bert 系列模型和 xlnet 模型的又一次交.