建平县营商环境建设局网站创意设计人才网
2025/12/31 9:14:18 网站建设 项目流程
建平县营商环境建设局网站,创意设计人才网,安徽网站制作,金点子Transformer是一种革命性的深度学习模型架构#xff0c;由编码器和解码器堆叠组成#xff0c;核心是自注意力机制和多头注意力机制。它通过位置编码处理序列顺序#xff0c;使用残差连接和层归一化提高训练稳定性。Transformer能够并行计算、有效捕捉长距离依赖#xff0c;…Transformer是一种革命性的深度学习模型架构由编码器和解码器堆叠组成核心是自注意力机制和多头注意力机制。它通过位置编码处理序列顺序使用残差连接和层归一化提高训练稳定性。Transformer能够并行计算、有效捕捉长距离依赖解决了RNN和CNN的局限性成为现代大语言模型的基础架构。一、Transformer是什么Transformer是一种用于自然语言处理NLP和其他序列到序列sequence-to-sequence任务的深度学习模型架构它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制self-attention mechanism这是一个关键的创新使其在处理序列数据时表现出色。以下是Transformer的一些重要组成部分和特点自注意力机制Self-Attention这是Transformer的核心概念之一它使模型能够同时考虑输入序列中的所有位置而不是像循环神经网络RNN或卷积神经网络CNN一样逐步处理。自注意力机制允许模型根据输入序列中的不同部分来赋予不同的注意权重从而更好地捕捉语义关系。多头注意力Multi-Head AttentionTransformer中的自注意力机制被扩展为多个注意力头每个头可以学习不同的注意权重以更好地捕捉不同类型的关系。多头注意力允许模型并行处理不同的信息子空间。堆叠层Stacked LayersTransformer通常由多个相同的编码器和解码器层堆叠而成。这些堆叠的层有助于模型学习复杂的特征表示和语义。位置编码Positional Encoding由于Transformer没有内置的序列位置信息它需要额外的位置编码来表达输入序列中单词的位置顺序。残差连接和层归一化Residual Connections and Layer Normalization这些技术有助于减轻训练过程中的梯度消失和爆炸问题使模型更容易训练。编码器和解码器Transformer通常包括一个编码器用于处理输入序列和一个解码器用于生成输出序列这使其适用于序列到序列的任务如机器翻译。1.1Transformer的结构Nx 6Encoder block由6个encoder堆叠而成图中的一个框代表的是一个encoder的内部结构一个Encoder是由Multi-Head Attention和全连接神经网络Feed Forward Network构成。如下图所示简略结构每一个编码器都对应上图的一个encoder结构Transformer的编码组件是由6个编码器叠加在一起组成的解码器同样如此。所有的编码器在结构上是相同的但是它们之间并没有共享参数。编码器的简略结构如下从编码器输入的句子首先会经过一个自注意力层这一层帮助编码器在对每个单词编码的时候时刻关注句子的其它单词。解码器中的解码注意力层的作用是关注输入句子的相关部分类似于seq2seq的注意力。原结构中使用到的是多头注意力机制Multi-Head Attention我们先从基础——自注意力机制开始讲起1.2自注意力机制自注意力的作用随着模型处理输入序列的每个单词自注意力会关注整个输入序列的所有单词帮助模型对本单词更好地进行编码。在处理过程中自注意力机制会将对所有相关单词的理解融入到我们正在处理的单词中。更具体的功能如下序列建模自注意力可以用于序列数据例如文本、时间序列、音频等的建模。它可以捕捉序列中不同位置的依赖关系从而更好地理解上下文。这对于机器翻译、文本生成、情感分析等任务非常有用。并行计算自注意力可以并行计算这意味着可以有效地在现代硬件上进行加速。相比于RNN和CNN等序列模型它更容易在GPU和TPU等硬件上进行高效的训练和推理。因为在自注意力中可以并行的计算得分长距离依赖捕捉传统的循环神经网络RNN在处理长序列时可能面临梯度消失或梯度爆炸的问题。自注意力可以更好地处理长距离依赖关系因为它不需要按顺序处理输入序列。自注意力的结构如下所示自注意力的计算从每个编码器的输入向量每个单词的词向量即Embedding可以是任意形式的词向量比如说word2vecGloVeone-hot编码中生成三个向量即查询向量、键向量和一个值向量。这三个向量是通过词嵌入与三个权重矩阵即WQ,WK,WV相乘后创建出来的新向量在维度上往往比词嵌入向量更低。更一般的将以上所得到的查询向量、键向量、值向量组合起来就可以得到三个向量矩阵Query、Keys、Values。计算自注意力的第二步是计算得分假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数是通过所有输入句子的单词的键向量与“Thinking”的查询向量相点积来计算的。第三步和第四步是将分数除以8(8是论文中使用的键向量的维数64的平方根这会让梯度更稳定。这里也可以使用其它值8只是默认值这样做是为了防止内积过大。)然后通过softmax传递结果。随着模型处理输入序列的每个单词自注意力会关注整个输入序列的所有单词帮助模型对本单词更好地进行编码。softmax的作用是使所有单词的分数归一化得到的分数都是正值且和为1。这个softmax分数决定了每个单词对编码当下位置“Thinking”的贡献。显然已经在这个位置上的单词将获得最高的softmax分数第五步是将每个值向量乘以softmax分数(这是为了准备之后将它们求和)。这里的直觉是希望关注语义上相关的单词并弱化不相关的单词(例如让它们乘以0.001这样的小数)。Softmax函数或称归一化指数函数它将每一个元素的范围都压缩到01之间并且所有元素的和为1。第六步是对加权值向量求和然后即得到自注意力层在该位置的输出(在我们的例子中是对于第一个单词)。整体的计算图如图所示最终得到了自注意力并将得到的向量传递给前馈神经网络。以上二到六步合为一个公式计算自注意力层的输出。自注意力层的完善——“多头”注意力机制对应整体结构图中的Multi——Head Attention扩展了模型专注于不同位置的能力。有多个查询/键/值权重矩阵集合Transformer使用八个注意力头并且每一个都是随机初始化的。和上边一样用矩阵X乘以WQ、WK、WV来产生查询、键、值矩阵。self-attention只是使用了一组WQ、WK、WV来进行变换得到查询、键、值矩阵而Multi-Head Attention使用多组WQWKWV得到多组查询、键、值矩阵然后每组分别计算得到一个Z矩阵。馈层只需要一个矩阵则把得到的8个矩阵拼接在一起然后用一个附加的权重矩阵W0与它们相乘总结整个流程编码it一词时不同注意力的头集中在哪里当我们编码it这个单词时图中只列举出了两个注意力其中一个注意力头集中在The animal另一个注意力头集中在tire上。即形象解释it代指的是animal和tire。1.3使用位置编码表示序列的顺序为什么要用位置编码如果不添加位置编码那么无论单词在什么位置它的注意力分数都是确定的。这不是我们想要的。为了理解单词顺序Transformer为每个输入的词嵌入添加了一个向量这样能够更好的表达词与词之间的关系。词嵌入与位置编码相加而不是拼接他们的效率差不多但是拼接的话维度会变大所以不考虑。为了让模型理解单词的顺序我们添加了位置编码向量这些向量的值遵循特定的模式。1-4、AddNormalizeAdd Norm 层由 Add 和 Norm 两部分组成其计算公式如下其中X表示 Multi-Head Attention 或者 Feed Forward 的输入MultiHeadAttention(X) 和 FeedForward(X) 表示输出 (输出与输入 X 维度是一样的所以可以相加)。AddAdd就是在z的基础上加了一个残差块X加入残差块的目的是为了防止在深度神经网络的训练过程中发生退化的问题退化的意思就是深度神经网络通过增加网络的层数Loss逐渐减小然后趋于稳定达到饱和然后再继续增加网络层数Loss反而增大。ResNet残差神经网络为了了解残差块我们引入ResNet残差神经网络神经网络退化指的是在达到最优网络层数之后神经网络还在继续训练导致Loss增大对于多余的层我们需要保证多出来的网络进行恒等映射。只有进行了恒等映射之后才能保证这多出来的神经网络不会影响到模型的效果。残差连接主要是为了防止网络退化。上图就是构造的一个残差块X是输入值FX是经过第一层线性变换后并且激活的输出在第二层线性变化之后激活之前FX加入了这一层输入值X然后再进行激活后输出。要恒等映射我们只需要让FX0就可以了。x经过线性变换随机初始化权重一般偏向于0输出值明显会偏向于0而且经过激活函数Relu会将负数变为0过滤了负数的影响。这样当网络自己决定哪些网络层为冗余层时使用ResNet的网络很大程度上解决了学习恒等映射的问题用学习残差F(x)0更新该冗余层的参数来代替学习h(x)x更新冗余层的参数。Normalize归一化目的加快训练速度提高训练的稳定性使用到的归一化方法是Layer Normalization。LN是在同一个样本中不同神经元之间进行归一化而BN是在同一个batch中不同样本之间的同一位置的神经元之间进行归一化。BN是对于相同的维度进行归一化但是咱们NLP中输入的都是词向量一个300维的词向量单独去分析它的每一维是没有意义地在每一维上进行归一化也是适合地因此这里选用的是LN。1.5全连接层Feed Forward全连接层是一个两层的神经网络先线性变换然后ReLU非线性再线性变换。这两层网络就是为了将输入的Z映射到更加高维的空间中然后通过非线性函数ReLU进行筛选筛选完后再变回原来的维度。经过6个encoder后输入到decoder中。1.6Decoder整体结构和Encoder Block一样Decoder也是由6个decoder堆叠而成的Nx6。包含两个 Multi-Head Attention 层。第一个 Multi-Head Attention 层采用了 Masked 操作。第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算而Q使用上一个 Decoder block 的输出计算。Masked Multi-Head Attention与Encoder的Multi-Head Attention计算原理一样只是多加了一个mask码。mask 表示掩码它对某些值进行掩盖使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask分别是 padding mask 和 sequence mask。为什么需要添加这两种mask码呢padding mask什么是 padding mask 呢因为每个批次输入序列长度是不一样的也就是说我们要对输入序列进行对齐。具体来说就是给在较短的序列后面填充 0。但是如果输入的序列太长则是截取左边的内容把多余的直接舍弃。因为这些填充的位置其实是没什么意义的所以我们的attention机制不应该把注意力放在这些位置上所以我们需要进行一些处理。具体的做法是把这些位置的值加上一个非常大的负数(负无穷)这样的话经过 softmax这些位置的概率就会接近0sequence masksequence mask 是为了使得 decoder 不能看见未来的信息。对于一个序列在 time_step 为 t 的时刻我们的解码输出应该只能依赖于 t 时刻之前的输出而不能依赖 t 之后的输出。因此我们需要想一个办法把 t 之后的信息给隐藏起来。这在训练的时候有效因为训练的时候每次我们是将target数据完整输入进decoder中地预测时不需要预测的时候我们只能得到前一时刻预测出的输出。那么具体怎么做呢也很简单产生一个上三角矩阵上三角的值全为0。把这个矩阵作用在每一个序列上就可以达到我们的目的。注意1.在Encoder中的Multi-Head Attention也是需要进行mask的只不过Encoder中只需要padding mask即可而Decoder中需要padding mask和sequence mask。2.Encoder中的Multi-Head Attention是基于Self-Attention地Decoder中的第二个Multi-Head Attention就只是基于Attention它的输入Quer来自于Masked Multi-Head Attention的输出Keys和Values来自于Encoder中最后一层的输出。1.7输出Output如图中所示首先经过一次线性变换线性变换层是一个简单的全连接神经网络它可以把解码组件产生的向量投射到一个比它大得多的被称为对数几率的向量里然后Softmax得到输出的概率分布softmax层会把向量变成概率然后通过词典输出概率最大的对应的单词作为我们的预测输出。1-8、transformer的优缺点优点1、效果好2、可以并行训练速度快3、很好的解决了长距离依赖的问题缺点完全基于self-attention对于词语位置之间的信息有一定的丢失虽然加入了positional encoding来解决这个问题但也还存在着可以优化的地方。普通人如何抓住AI大模型的风口为什么要学习大模型在DeepSeek大模型热潮带动下“人工智能”赋能各产业升级提速。随着人工智能技术加速渗透产业AI人才争夺战正进入白热化阶段。如今近**60%的高科技企业已将AI人才纳入核心招聘目标**其创新驱动发展的特性决定了对AI人才的刚性需求远超金融40.1%和专业服务业26.7%。餐饮/酒店/旅游业核心岗位以人工服务为主多数企业更倾向于维持现有服务模式对AI人才吸纳能力相对有限。这些数字背后是产业对AI能力的迫切渴求互联网企业用大模型优化推荐算法制造业靠AI提升生产效率医疗行业借助大模型辅助诊断……而餐饮、酒店等以人工服务为核心的领域因业务特性更依赖线下体验对AI人才的吸纳能力相对有限。显然AI技能已成为职场“加分项”乃至“必需品”越早掌握越能占据职业竞争的主动权随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议如果你真的想学习大模型请不要去网上找那些零零碎碎的教程真的很难学懂你可以根据我这个学习路线和系统资料制定一套学习计划只要你肯花时间沉下心去学习它们一定能帮到你大模型全套学习资料领取这里我整理了一份AI大模型入门到进阶全套学习包包含学习路线实战案例视频书籍PDF面试题DeepSeek部署包和技巧需要的小伙伴文在下方免费领取哦真诚无偿分享vx扫描下方二维码即可部分资料展示一、 AI大模型学习路线图这份路线图以“阶段性目标重点突破方向”为核心从基础认知AI大模型核心概念到技能进阶模型应用开发再到实战落地行业解决方案每一步都标注了学习周期和核心资源帮你清晰规划成长路径。二、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。三、 大模型学习书籍文档收录《从零做大模型》《动手做AI Agent》等经典著作搭配阿里云、腾讯云官方技术白皮书帮你夯实理论基础。四、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询