2026/4/13 5:53:44
网站建设
项目流程
网站建设与管理的实训,ppt模板下载后怎么导入,wordpress悬浮窗插件,衡水做淘宝网站BERT是基于Transformer架构的双向预训练语言模型#xff0c;突破了传统单向模型的局限。其预训练微调范式大大降低了标注数据需求。BERT采用MLM和NSP两种预训练任务#xff0c;通过双向编码机制同时考虑上下文信息#xff0c;能够处理句对分类、单句分类、问答和…BERT是基于Transformer架构的双向预训练语言模型突破了传统单向模型的局限。其预训练微调范式大大降低了标注数据需求。BERT采用MLM和NSP两种预训练任务通过双向编码机制同时考虑上下文信息能够处理句对分类、单句分类、问答和标注等多种NLP任务显著提升了语言理解的深度和广度推动了NLP领域的快速发展。1、概述BERTBidirectional Encoder Representations from Transformers全称是“基于Transformer编码器架构的双向自编码模型”是一种基于[Transformer]架构的预训练语言模型。自2018年由谷歌提出以来便在自然语言处理NLP领域掀起了一场革命。它凭借独特的架构与训练方式成为了众多NLP任务的首选模型深刻改变了我们理解和应用语言的方式。自回归模型、自编码模型和序列到序列模型的区别自回归仅包含解码器。 类似于“读小说”例如GPT模型自编码 仅包含编码器。类似于“做完形填空”例如ELMo、Bert模型序列到序列模型包含编码器和解码器。例如Transform模型。1.1、突破传统语言模型局限在BERT出现之前语言模型大多基于单向的序列处理方式如循环神经网络RNN及其变体长短期记忆网络LSTM和门控循环单元GRU它们只能从前向后或从后向前理解文本无法同时捕捉单词的左右上下文信息。而BERT采用双向Transformer架构能够同时考虑句子中每个单词的前后文极大地丰富了语义理解的深度和广度。1.2、预训练与微调范式的创新BERT开创了“预训练 微调”的新范式为NLP任务的高效解决提供了通用框架。它先在海量无监督文本数据上进行预训练学习通用的语言知识和语义模式然后针对具体任务进行微调只需少量标注数据即可实现任务特定的优化。这种范式大大减少了对大规模标注数据的依赖降低了任务开发成本同时提升了模型在不同任务上的泛化能力。以情感分析为例以往需要大量标注的情感文本进行训练现在只需在预训练好的BERT模型基础上微调即可快速构建高精度的情感分析模型。1.3、推动 NLP 领域的快速发展BERT的出现为NLP领域带来了质的飞跃它在多项基准测试中取得了前所未有的成绩如在GLUEGeneral Language Understanding Evaluation基准测试中刷新了多项任务的最高分几乎在所有任务上都超越了以往的最佳模型。成功激发了学术界和工业界对预训练语言模型的深入研究和广泛应用促使更多基于BERT的变体和改进模型不断涌现如RoBERTa、ALBERT等进一步推动了NLP技术的创新和发展使机器对语言的理解和生成能力迈向了新的高度。2、模型介绍2.1、模型架构BERT是一种基于Transformer架构的模型且只包含Encoder模块由多个Encoder block模块堆叠而成。其架构如下图所示。从上图左侧我们可以看到BERT包含三种模块最底层⻩⾊标记的Embedding模块。中间层蓝⾊标记的Transformer模块。最上层绿⾊标记的预[微调]模块。上图右侧是Encoder block的内部模块图。图中蓝色模块被画成了两层这表示BERT模型中堆叠了多个Transformer编码器块。每个编码器块都包含自注意力机制Self-Attention Mechanism和前馈神经网络Feed-Forward Neural Network以及层归一化Layer Normalization和残差连接Residual Connections。BERT模型有两种规模Base版和Large版。其中Base版包含12层Transformer编码器隐藏层大小为768自注意力头数为12总参数量约为1.1亿Large版则包含24层Transformer编码器隐藏层大小为1024自注意力头数为16总参数量约为3.4亿。BASE版L 12H 768A 12总参数量为 1.1 亿LARGE版L 24H 1024A 16总参数量为 3.4 亿。2.2、单向编码与双向编码2.2.1 单向编码单向编码指的是在编码过程中模型只能利用到当前位置之前的文本信息或只能利用到当前位置之后的文本信息但这种情况较少见而无法同时利用到当前位置前后的文本信息。单向的LSTM或早期的Transformer变体往往只能单向处理文本序列即从左到右或从右到左。这种单向处理方式限制了模型对上下文信息的全面捕捉尤其是在处理需要同时考虑前后文信息的任务时如词义消歧、情感分析等单向模型的表现往往不尽如人意。这种编码方式使得模型在处理文本时具有一种“前瞻性”或“回顾性”但缺乏全局的上下文理解能力。GPT是一个典型的采用单向编码的预训练语言模型。GPT使用Transformer的解码器部分作为其主要结构通过自回归的方式进行训练即模型在生成下一个词时只能看到之前的词无法看到之后的词。2.2.2 双向编码双向编码则允许模型在编码过程中同时利用到当前位置前后的文本信息从而能够更全面地理解文本的上下文。这种编码方式使得模型在处理文本时具有更强的语义理解能力和更丰富的信息来源。BERT是一个典型的采用双向编码的预训练语言模型。BERT通过掩码语言模型MLM的方式进行训练即随机掩盖文本中的部分词汇然后让模型预测这些被掩盖的词汇。举个例子考虑一个文本序列“今天天气很好我们决定去公园散步。”在单向编码中每个词或标记的编码仅依赖于其之前的词或标记。因此在编码“决定”这个词时模型只会考虑“今天”、“天气”、“很好”和“我们”这些在它之前的词。在双向编码中每个词或标记的编码都会同时考虑其前后的词或标记。因此在编码“决定”这个词时模型会同时考虑“今天”、“天气”、“很好”以及之后的“去公园散步”等词从而更全面地理解整个句子的语义。2.3、Embedding模块BERT的输入Embedding模块由三部分组成Token Embeddings输入文本中的每个单词或字符转换为一个固定维度的向量。Base版为768维Large版为1024维。Position Embeddings单词或字符在句子中的位置信息。BERT中的位置嵌入是可学习的它会随着模型的训练而更新非固定的三角函数。Segment Embeddings用于区分同一输入序列中不同句子的来源。对于多句输入BERT会为每个句子分配一个不同的段编号来区分它们。Segment Embeddings的取值通常是0和1如果输入包含两个句子通常第一个句子的token会被赋予全0的向量第二个句子的token会被赋予全1的向量。下图是一个示例。2.4、预训练BERT的预训练过程主要包括两个阶段Masked Language ModelMLM和Next Sentence PredictionNSP。2.4.1、Masked Language Model (MLM)Masked Language Model即遮蔽语言模型是BERT预训练的一个重要部分。在这一阶段模型的任务是预测输入句子中被随机遮蔽masked掉的部分单词。输入文本处理首先对于输入的句子随机选择句子中15%的单词进行遮蔽。对于每个被选中的单词有80%的概率直接用[MASK]标记替换10%的概率用随机的一个单词替换这有助于模型学习理解上下文的重要性而不仅仅是依赖于[MASK]标记剩下的10%则保持不变这有助于模型在微调阶段更好地处理未遮蔽的单词。模型预测模型的目标是根据上下文预测这些被遮蔽单词的原始值。这种机制促使BERT能够深入理解文本中的语义关系。我们来看一个例子假设有一句话my dog is hairy(180%的时候是[MASK]。如my dog is hairy—my dog is[MASK](210%的时候是随机的其他token。如my dog is hairy—my dog is apple(310%的时候是原来的token。如my dog is hairy—my dog is hairy这三种情况中第一种情况即最基本的掩码语言模型希望模型能够学会利用上下文来预测出正确的词第二种情况可用于增强模型的鲁棒性第三种情况则是为了减少预训练和微调、推理等后续使用场景之间的差别因为在微调、推理等场景中输入是完整的不可能出现[MASK] 这种特殊符号但我们仍希望模型能够对没有掩码的词计算出很好的向量表示。2.4.2、Next Sentence Prediction (NSP)Next Sentence Prediction即下一句预测是BERT预训练的另一个重要部分旨在提高模型对句子间关系的理解能力。句子对生成在预训练时模型不仅接收单个句子作为输入还接收句子对。这些句子对可能是连续的即真实的下一句也可能是随机组合的即非连续的。模型预测对于每个句子对模型需要预测第二个句子是否是第一个句子的真实下一句。这是一个简单的二分类任务输出是一个[0, 1]范围内的值表示第二个句子是第一个句子真实下一句的概率。连续句对[CLS]今天天气很糟糕[SEP]下午的体育课取消了[SEP]随机句对[CLS]今天天气很糟糕[SEP]鱼快被烤焦啦[SEP]其中 [SEP] 标签表示分隔符。 [CLS] 表示标签用于类别预测结果为 1表示输入为连续句对结果为 0表示输入为随机句对。通过训练 [CLS] 编码后的输出标签BERT 可以学会捕捉两个输入句对的文本语义。注在BERT的后续版本中Next Sentence PredictionNSP任务被废弃了。因为研究人员发现这个任务对下游任务的性能提升有限因此在BERT的一些后续变体中被弃用了。2.5、微调根据自然语言处理NLP下游任务输入和输出形式的不同微调任务可以分为四类分别是句对分类、单句分类、文本问答和单句标注如下图所示。2.5.1、句对分类任务任务描述句对分类任务涉及两个句子的输入并需要模型判断这两个句子之间的关系或情感倾向等。应用场景例如自然语言推断NLI任务需要判断一个句子是否可以从另一个句子推断出来或者语义文本相似性STS任务需要评估两个句子的语义相似度。如下图所示句对分类的处理过程为输入处理将两个句子句对作为输入在两个句子之间添加特殊的分隔符[SEP]并在开头添加开始符[CLS]在末尾添加结束符[EOS]。[CLS]标记的输出表示将被用作句对分类的输入特征。模型微调在预训练的BERT模型基础上添加一个全连接层作为输出层用于句对分类任务。特征提取利用BERT编码器提取的句对表示结合注意力机制等技术捕捉两个句子之间的关系和交互信息用于句对分类。举例说明下面有两个句子我们要判断句子2是否是句子1的合理后续即句子间的逻辑关系如蕴含、中立、矛盾等。在这个例子中可以视为一个蕴含关系因为好天气通常适合户外运动。句子1: “今天的天气真好。”句子2: “适合去户外运动。”BERT处理将两个句子用[SEP]分隔并在开头添加[CLS]标记然后输入到BERT模型中。模型输出[CLS]标记的表示用于句对关系的分类。[CLS] 今天的天气真好。 [SEP] 适合去户外运动。 [SEP]模型输出标签entailment蕴含注实际的模型输出是一个概率分布如[0.85, 0.1, 0.05]分别对应蕴含、中立、矛盾的概率这里为了简化只给出了最可能的标签。2.5.2、单句分类任务任务描述单句分类任务是将单个句子作为输入并输出该句子的类别或情感倾向。应用场景如情感分析判断文本是正面、负面还是中性、垃圾邮件检测判断邮件是否为垃圾邮件等。如下图所示单句分类的处理过程为输入处理将单个句子作为输入添加开始符[CLS]。模型微调与句对分类类似在预训练的BERT模型基础上添加一个全连接层作为输出层用于单句分类任务。通过微调整个模型来优化分类性能。特征提取利用BERT编码器提取的单个句子表示捕捉句子中的语义信息用于单句分类。举例说明下面的句子我们将句子分类为正面情感或负面情感。在这个例子中句子表达的是正面情感。句子: “这部电影非常精彩”BERT处理将句子作为输入添加[CLS]标记然后输入到BERT模型中。模型输出一个或多个类别的概率分布选择概率最高的类别作为分类结果。[CLS] 这部电影非常精彩输出概率分布[0.95, 0.05]其中第一个值对应正面情感的概率第二个值对应负面情感的概率。2.5.3、文本问答任务任务描述文本问答任务涉及一个问题和一段文本如文章或段落模型需要从文本中找出问题的答案。应用场景如机器阅读理解MRC自动问答系统FAQ等。如下图所示文本回答的处理过程为输入处理将问题和相关文档或段落作为输入使用特殊的分隔符[SEP]将问题和文档分隔开。答案抽取BERT模型通过编码器部分提取问题和文档的表示然后可以结合指针网络等机制来定位答案在文档中的位置。在某些情况下可能需要在BERT模型的基础上添加额外的层如两个指针层来指示答案的起始和结束位置。微调任务针对问答任务进行微调优化模型在定位答案位置方面的性能。举例说明下方的问题我们从文档中找出问题的答案。在这个例子中答案是北京不是省份。问题: “北京是中国的哪个省份”文档: “北京是中国的首都位于华北地区不是省份。”BERT处理将问题和文档分别作为输入然后输入到BERT模型中。模型输出包括两个指针用于指示答案在文档中的位置。问题[CLS] 北京是中国的哪个省份 [SEP]文档[CLS] 北京是中国的首都位于华北地区不是省份。 [SEP]模型输出起始索引在文档中的位置假设从0开始 23结束索引同样假设从0开始 25注这里的索引只是示意性的实际输出可能依赖于文档的预处理和编码方式。2.5.4、单句标注任务任务描述单句标注任务是对句子中的每个词或子词进行标注如命名实体识别NER、词性标注POS Tagging等。应用场景在信息抽取、文本分析等领域有广泛应用。如下图所示单句标注的处理过程为输入处理将单个句子作为输入不需要特殊的分隔符但可能需要对句子进行分词处理以符合BERT的输入要求。序列标注将单句标注视为序列标注任务其中句子中的每个单词或子词都被分配一个标签。BERT模型通过编码器部分提取句子的表示然后结合序列标注层如CRF层或softmax层来为每个单词或子词分配标签。微调模型在BERT模型的基础上添加一个序列标注层并通过微调来优化标注性能。微调过程中模型会学习如何将句子的表示映射到对应的标签序列上。3、总结BERT模型架构以其独特的双向编码器结构和预训练机制在自然语言处理领域展现出显著的特点与优势。其核心在于通过大规模无监督预训练捕捉语言中的深层语义信息使得模型在处理各类自然语言任务时能够更准确地理解文本的上下文含义进而提升任务处理的精准度与效率。BERT模型的优势体现在多个方面。其一双向编码机制使得模型能够同时考虑文本的左右上下文突破了传统单向模型的信息局限从而在语义理解上更为全面和深入。其二预训练加微调的范式极大地降低了模型对于特定任务标注数据的依赖使得模型能够在少量标注数据下快速适应新任务提高了模型的泛化能力和应用灵活性。在自然语言处理领域BERT模型的应用前景极为广阔。从文本分类、情感分析到问答系统BERT均展现出强大的性能提升潜力。随着模型架构的不断优化和计算资源的日益丰富BERT模型有望在更多复杂、高精度的自然语言处理任务中发挥关键作用推动整个领域向更高层次的智能化发展。同时BERT模型的成功也为后续研究提供了宝贵的思路与启示引领自然语言处理技术迈向新的发展阶段。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取