BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer双向编码器的预训练语言表征模型,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。BERT模型强调不再采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。关键技术:双向Transformer编码器和预训练微调处理数据:适合处理双向上下文信息应用场景:自然语言处理、文本分类、情感分析等
05
GPT(生成式预训练Transformer模型)
GPT(Generative Pre-trained Transformer)是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。GPT模型的设计也是基于Transformer模型,这是一种用于序列建模的神经网络结构。与传统的循环神经网络(RNN)不同,Transformer模型使用了自注意力机制,可以更好地处理长序列和并行计算,因此具有更好的效率和性能。GPT模型通过在大规模文本语料库上进行无监督的预训练来学习自然语言的语法、语义和语用等知识。预训练过程分为两个阶段:在第一个阶段,模型需要学习填充掩码语言模型(Masked Language Modeling,MLM)任务,即在输入的句子中随机掩盖一些单词,然后让模型预测这些单词;在第二个阶段,模型需要学习连续文本预测(Next Sentence Prediction,NSP)任务,即输入一对句子,模型需要判断它们是否是相邻的。GPT模型的性能已经接近或超越了一些人类专业领域的表现。关键技术:单向Transformer编码器和预训练微调处理数据:适合生成连贯的文本