宜都市网站建设电子商务网站设计代码
2026/3/22 4:27:02 网站建设 项目流程
宜都市网站建设,电子商务网站设计代码,贷款类的网站好做怎么做,咨询公司招聘自监督学习#xff08;Self-Supervised Learning-SSL#xff09; 大语言模型#xff08;LLM#xff09;预训练阶段的核心技术之一#xff0c;也是大模型具备通用能力的关键基础。 自监督学习是一种不需要人工标注数据的机器学习范式。 核心思路 从原始数据#xff08;比如…自监督学习Self-Supervised Learning-SSL大语言模型LLM预训练阶段的核心技术之一也是大模型具备通用能力的关键基础。自监督学习是一种不需要人工标注数据的机器学习范式。核心思路从原始数据比如海量文本中自动构造监督信号让模型自己 “出题” 自己 “做题”通过这个过程学习数据中的深层规律比如语言的语法、语义、逻辑关系对比有监督学习需要人工标注 “输入 - 输出” 标签优势能利用互联网级别的无标注文本极大降低训练成本同时让模型学到更通用的语言能力常见的自监督学习任务最典型的自监督任务有以下几种掩码语言建模Masked Language Modeling, MLMˈmɒd(ə)lɪŋn. [自] 建模造型立体感 adj. 制造模型的BERT 等模型的核心任务随机遮盖输入文本中的部分词汇比如用 [MASK] 符号替换让模型根据上下文预测被遮盖的词汇是什么例输入今天[MASK]气很好模型需要预测出天字因果语言建模Causal Language Modeling, CLMˈkɔːz(ə)ladj. 因果关系的构成原因的连接词表示原因的由某种原因引起的n. 表示原因的连词GPT 系列模型的核心任务给定一段文本的前缀让模型预测下一个词训练过程中模型只能看到前文不能看到后文符合人类 “阅读 - 续写” 的语言习惯例输入床前明月光疑是地上模型需要预测出霜字对比学习Contrastive Learning常用于多模态大模型比如文生图、图生文模型对同一组数据生成正样本对比如一张猫的图片 描述猫的文字和负样本对比如猫的图片 描述狗的文字让模型学习区分正样本和负样本从而建立文本与图像之间的关联自监督学习对大模型的意义突破数据标注瓶颈人工标注高质量文本的成本极高自监督学习可以直接利用万亿级的无标注文本让模型学到海量的语言知识提升模型的通用能力通过自监督任务训练的模型能掌握语言的上下文关联、逻辑推理、知识关联等基础能力为后续的微调Fine-tuning打下坚实基础适配多领域任务预训练后的大模型只需少量领域数据微调就能胜任翻译、问答、代码生成等不同任务BERT 和 LLM 的关系关系BERT 是 LLM大语言模型的重要先驱与子集二者是具体模型架构与模型类别的从属关系BERT 奠定现代 LLM 很多核心技术基础LLMLarge Language Model大语言模型一个广义的模型类别核心定义基于海量文本数据、通过自监督学习训练的大参数量语言模型具备强大的上下文理解、生成或判别能力判定标准参数量级通常亿级及以上 自监督预训练范式 通用语言能力常见代表GPT 系列、LLaMA 系列、BERT 及其衍生模型等BERTBidirectional Encoder Representations from Transformers基于 Transformer 的双向编码器表征Google 2018 年提出的一种具体的 Transformer 编码器模型是首个将双向注意力机制大规模应用于语言模型的架构也是 LLM 发展史上的里程碑式模型BERT 如何影响现代 LLM双向注意力机制此前的语言模型如 ELMo是单向或浅层双向的BERT 首次实现完全双向的上下文编码让模型能同时利用前后文信息理解语义这一思路被后续很多 LLM 借鉴如 T5 同时用了编码器和解码器预训练 微调范式BERT 确立的 “自监督预训练 任务监督微调” 流程成为现代 LLM 的标准训练链路先在海量无标注数据上预训练再用少量标注数据微调适配具体任务。衍生模型扩展BERT 衍生出 RoBERTa、ALBERT、ERNIE 等模型这些模型进一步优化预训练策略推动 LLM 参数量和能力的提升为千亿级模型的出现铺平道路。总结BERT 是 LLM 家族中承前启后的关键成员它不是 LLM 的全部但它的技术理念和训练范式定义了现代 LLM 的核心骨架双向注意力机制双向注意力机制相比单向注意力机制的核心优势同时利用上下文的全部信息进行语义理解解决单向机制只能依赖前文/后文的信息局限性大幅提升模型对语言的理解精度【单向注意力机制】模型在处理文本时只能关注当前位置之前的前文无法访问之后的后文或反之典型代表是GPT 系列采用的 因果语言建模CLM 架构训练时模型只能基于前文预测下一个词注意力掩码会屏蔽掉当前 token 之后的所有位置确保训练和推理的一致性推理时也是逐词生成没有后文信息【双向注意力机制】模型在处理文本时可以同时关注当前位置的前文和后文实现对整个上下文的全局语义建模典型代表是 BERT 采用的 掩码语言建模MLM 架构训练时通过掩码遮盖部分 token模型需要结合被遮盖词的前后文来预测其内容注意力掩码不会屏蔽任何位置的信息【语义理解的完整性】双能捕捉全局上下文关联比如理解歧义句时可结合前后文判断多义词的含义例句子 “他背着包袱上山”双向模型能通过 “上山” 判断 “包袱” 是行李而非思想负担单向模型若只看到 “他背着包袱”则无法准确判断单只能依赖前文信息对歧义句、长句的语义理解容易出现偏差尤其处理中间位置的 token 时缺乏后文的补充信息【对长依赖关系的捕捉能力 】双可直接建立当前 token 与整个句子中任意位置 token 的关联无需受限于顺序例长句 “小明昨天下午和小红一起去市中心那家新开的、主打川菜的餐厅” 双向模型直接关联 “小明” 和 “小红”、“餐厅” 和 “川菜” 关系单只能按顺序从左到右建立依赖长距离的语义关联需要多层网络传递容易出现信息衰减导致关联失效【下游理解类任务的性能】双天生适配文本分类、命名实体识别、语义相似度计算、问答匹配等理解类任务因为这些任务需要完整上下文信息才能做出准确判断单这类任务上表现较弱若要适配通常需要做特殊改造如双向拼接但效果仍不如原生双向模型双向机制的局限性与两种机制的互补双向注意力机制并非 “完胜” 单向机制二者各有适用场景双向机制的短板不适合生成类任务因为生成任务是 “逐词续写” 过程推理时模型只看到前文而双向模型训练时依赖前后文出现 “训练 - 推理不一致” 问题即暴露偏差单向机制的优势天生适配生成类任务训练和推理的逻辑一致能稳定输出连贯的文本如对话、续写、代码生成现代混合架构的思路很多模型会结合二者的优势兼顾理解与生成能力T5 模型采用 “编码器 - 解码器” 结构编码器用双向注意力做全局理解解码器用单向注意力做文本生成T5模型Text‑to‑Text Transfer Transformer首字母有5个TT5Text‑to‑Text Transfer Transformer是 Google 于 2020 年提出的统一架构预训练语言模型核心是将所有 NLP 任务统一为 “文本输入→文本输出” 的范式用一套 Encoder‑Decoder Transformer 架构覆盖理解与生成类任务大幅提升模型复用性与迁移效率统一范式所有任务通过 “任务前缀 输入文本” 统一输入输出均为文本消除不同任务的架构与格式差异示例翻译 translate English to German: How are you? → 输出 Wie geht es dir?摘要 summarize: T5 unifies NLP tasks… → 输出核心结论文本分类 sst2 sentence: This movie is great! → 输出 positive架构选择采用标准 Transformer Encoder‑Decoder兼顾理解与生成能力编码器用双向注意力做全局语义理解解码器用单向注意力做文本生成预训练目标使用Span‑Corruption片段遮蔽随机遮蔽连续文本片段并让模型重构相比 BERT 的单 token 掩码更贴近真实语言生成场景spanspænn. 时间跨度一段时间桥或拱的墩距跨距宽度翼展范围包括的种类航海跨绳一队人或动物数值范围v. 持续贯穿包括广大地区涵盖多项内容横跨跨越张开手覆盖或环绕南非给动物套上轭adj. 整洁干净的照管得很好的spick and spancorruptionkəˈrʌpʃ(ə)nn. 贪污腐败堕落腐蚀电脑上资讯的破坏损坏语言变体古腐坏腐烂关键技术细节BERT/GPT/T5差异GPT 的全称是 Generative Pre-trained Transformer中文翻译为生成式预训练变换器GPT 是 OpenAI 推出的系列模型从 GPT-1 到 GPT-4 不断迭代参数量和能力持续提升该系列模型均采用纯 Decoder 架构注意力机制为单向只能关注前文天生适配自回归生成任务之前说 BERT 是双向架构怎么在与 BERT、GPT 的核心差异中说 BERT 是 纯 Encoder架构纯 Encoder 架构 —— 描述 BERT 的模型结构类型Transformer 架构分为三大类核心区别在于使用 Transformer 的编码器Encoder 还是解码器Decoder 模块纯 Encoder只由 Transformer Encoder 堆叠而成代表模型是 BERTEncoder 的核心设计是无掩码的全注意力允许每个 token 关注输入序列中所有位置的 token这是实现双向语义理解的结构基础纯 Decoder只由 Transformer Decoder 堆叠而成代表模型是 GPTDecoder 加入了因果掩码Causal Mask强制每个 token 只能关注前文的 token无法关注后文适配自回归生成Encoder-Decoder同时包含 Encoder 和 Decoder代表模型是 T5Encoder 负责双向理解输入文本Decoder 负责单向生成输出文本简单说“纯 Encoder” 是 BERT 的结构标签决定了它的注意力机制可以做到无限制的全局关注双向架构 —— 描述 BERT 的注意力机制特性“双向” 特指 BERT 的注意力机制能够同时捕捉前文和后文的语义信息这个特性正是由其纯 Encoder 结构带来的在预训练任务掩码语言建模 MLM中BERT 处理被掩码的 token 时会同时参考这个 token 左边的前文和右边的后文句子 [CLS] 我 [MASK] 喜欢 苹果 [SEP]模型预测 [MASK] 为 “最” 时会同时用到前文的 “我” 和后文的 “喜欢 苹果”反观 GPT 的纯 Decoder 结构因为因果掩码的限制注意力机制是单向的只能用前文推导后文无法回头参考后文信息总结BERT 的 纯 Encoder 结构 是 “因”双向注意力机制 是 “果”前者是模型的架构分类后者是架构带来的核心能力特性二者从不同角度定义了 BERT 的核心设计什么是自回归生成任务Autoregressive Generation自回归生成是大语言模型生成类任务的核心技术范式指模型按照从左到右的顺序基于前文已生成的内容逐词预测下一个最可能的 token词 / 字 / 子词最终拼接成完整文本的过程这个过程和人类 “写句子” 的逻辑高度一致 —— 先写第一个词再根据第一个词想第二个词以此类推直到完成整段内容核心原理条件概率建模自回归生成的数学本质是对序列的条件概率进行分解因果掩码的关键作用是为了保证生成顺序的唯一性模型在训练和推理时会使用 因果掩码Causal Mask强制每个 token 只能 “看到” 前面的内容无法访问后面的内容这也是 GPT 等纯 Decoder 模型的核心设计 —— 从结构上杜绝了 “提前看后文” 的可能确保生成过程的自回归特性典型特征与优势生成文本连贯度高每一步预测都依赖前文的完整语义生成的文本在逻辑、语法和上下文关联上表现更优适合对话/续写/代码生成等需要强连贯性的场景训练和推理逻辑一致训练时用的是 “给定前文预测下一个词” 的任务因果语言建模 CLM推理时直接沿用这个逻辑无需额外改造稳定性强支持开放式生成可以基于简短提示词生成超长文本如小说、论文、代码块扩展性强局限性生成速度慢必须逐词串行生成无法并行计算下一个词生成越长的文本耗时越久误差累积问题若某一步生成了语义偏差的 token这个偏差会随着后续生成不断放大导致最终文本偏离预期比如写小说时人物名字写错后面会一直错不擅长双向语义优化生成过程中无法回头修改前文因此在需要全局语义调整的任务如文本摘要的精炼上不如 Encoder-Decoder 模型灵活典型应用模型与场景模型类型 代表模型 核心应用场景纯 Decoder 自回归模型 GPT 系列、LLaMA 系列、Falcon 对话生成、代码编写、小说续写、文案创作混合架构部分自回归 T5、BART 文本摘要、机器翻译Decoder 部分采用自回归生成BART 和 BERT 的关系是啥BART 和 BERT 是同属 Transformer 架构、共享核心预训练思路但定位和能力互补的两种大语言模型BART 可以看作是融合了 BERT 双向理解能力与 GPT 生成能力的改进模型。BERT 是由谷歌Google团队开发的于 2018 年在论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中正式发布BART 是由 Meta原 Facebook旗下的 FAIR 团队开发于 2019 年推出是基于 BERT 的双向理解能力结合 Encoder-Decoder 架构优化的生成式模型二者都基于 Transformer 架构且都采用双向注意力机制处理输入文本这是 BART 对 BERT 的核心继承都遵循 “自监督预训练 任务微调” 的范式预训练阶段都通过 “破坏文本 重构文本” 的方式让模型学习语义规律能力边界的拓展BERT 是纯 Encoder 模型仅擅长理解类任务分类、NER、语义匹配几乎不具备文本生成能力BART 是 Encoder-Decoder 架构在 BERT 编码器的基础上新增了一个带自回归能力的解码器同时具备 “双向理解” 和 “单向生成” 能力填补了 BERT 在生成任务上的空白自注意力机制和单双向注意力机制的区别自注意力机制与单 / 双向注意力机制的核心关系是 通用底层机制 与 具体应用形态 的区别单、双向注意力机制都是自注意力机制的子集二者的差异本质是注意力掩码Attention Mask对 token 关注范围的限制不同自注意力机制Self-AttentionTransformer 架构的核心计算单元全称 Scaled Dot-Product Self-Attention本质是让同一序列内的每个 token通过计算与其他 token 的关联权重捕捉序列内部的语义依赖比如 “苹果” 和 “吃” 的关联它是一个无约束的通用机制本身不限制 “能关注哪些 token”自注意力机制的 “自”指的是同一序列内部的 token 交互和 “跨注意力机制Cross-Attention” 相对跨注意力是两个不同序列的交互比如 Encoder 输出与 Decoder 输入自注意力机制和跨注意力机制自注意力机制Self-Attention和跨注意力机制Cross-Attention的核心区别在于注意力计算的对象范围不同前者是同一序列内部的 token 交互后者是两个不同序列之间的 token 交互二者都是 Transformer 架构的核心组件但分工和适用场景完全不同。核心定义与计算逻辑自注意力机制Self-Attention核心逻辑让 同一个序列 中的每个 token计算与序列内所有其他 token 的关联权重从而捕捉序列内部的语义依赖。计算对象仅针对单一输入序列 X比如一句话的 token 序列 [我, 喜欢, 吃, 苹果]。数学表达对输入序列 X生成 QueryQ、KeyK、ValueV注意力分数由 Q 和 K 计算得到最终输出为 V 的加权求和这里的 Q,K,V 全部来自同一个序列 X。关键特点关注序列内部的长距离依赖比如 “苹果” 和 “吃” 的关联可通过掩码控制关注范围衍生出单向、双向两种形态是 Transformer 编码器Encoder和解码器Decoder的基础组件跨注意力机制Cross-Attention核心逻辑让 一个序列 的 token去关注 另一个不同序列 的 token建立两个序列之间的语义关联。计算对象针对两个不同的输入序列记为 X 和 Y 比如机器翻译任务中 “英文原文序列” 和 “已生成的中文译文前缀序列”。数学表达QueryQ来自目标序列 Y而 KeyK和 ValueV来自源序列 X注意力分数由 Q目标和 K源计算这里的 Q 与 K,V 来自不同的序列关键特点建立两个序列的语义映射比如译文 token 对齐原文 token无掩码限制默认是全可见的双向关注是 Transformer 编码器 - 解码器Encoder-Decoder架构的专属组件对比对比维度 自注意力机制Self-Attention 跨注意力机制Cross-Attention计算对象 单个序列内部的 token 交互 两个不同序列之间的 token 交互Q/K/V 来源 Q,K,V全部来自同一序列 Q 来自目标序列K,V 来自源序列核心作用 捕捉单一序列的内部语义依赖 建立两个序列的语义关联与对齐所属组件 Encoder 和 Decoder 都包含 仅存在于 Encoder-Decoder 架构的 Decoder 中典型应用场景BERT 双向理解Encoder 自注意力GPT 自回归生成Decoder 自注意力T5/BART 文本摘要Decoder 关注 Encoder 输出机器翻译译文 token 关注原文 token掩码使用 可加因果掩码单向/全可见掩码双向 一般不加掩码允许目标序列关注源序列的全部内容实际应用中的协作示例以 T5 模型Encoder-Decoder 架构 为例两种机制的分工如下Encoder 阶段仅用 自注意力机制 处理输入文本比如一篇新闻让每个 token 关注前后文生成包含全局语义的向量表示Decoder 阶段第一步用 自注意力机制 处理已生成的摘要前缀比如 “本文介绍了”保证生成的连贯性第二步用 跨注意力机制 让摘要前缀的 token 去关注 Encoder 输出的新闻向量确保摘要内容与原文语义对齐总结自注意力机制“对内建模”解决 “一句话内部的词和词是什么关系” 的问题跨注意力机制“对外对齐”解决 “两个序列比如原文和译文的 token 如何匹配” 的问题二者在 Encoder-Decoder 架构中各司其职前者负责理解后者负责对齐共同支撑起 “理解 生成” 的混合任务能力

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询