2026/1/26 2:07:42
网站建设
项目流程
企业网站建设代理加盟,企业管理软件行业未来的发展,抖音代运营公司布马网络,北京互联网公司名单简介
Transfromer架构在 2017 年由 Google 提出的一种基于自注意力机制的深度神经网络架构#xff0c;目前Transformer已经成为了NLP领域的基础架构。基于Transformer架构也衍生出了著名的Transformer模型#xff0c;例如GPT(The Generative Pretrained Transformer)、BERT(B…简介Transfromer架构在 2017 年由 Google 提出的一种基于自注意力机制的深度神经网络架构目前Transformer已经成为了NLP领域的基础架构。基于Transformer架构也衍生出了著名的Transformer模型例如GPT(The Generative Pretrained Transformer)、BERT(Bidirectional)、 Encoder Representations From Transformer)自注意力机制Transformer的核心特点就是自注意力机制自注意力机制的核心作用就是让序列中的每个元素都可以动态的关注到整个序列中的其他元素从而更好的理解上下文信息。例如输入一个句子“The animal didn’t cross the street because it was too tired.”这个句子里有一个it自注意力机制的目标就是判断句子中的it指的是谁是animal还是street。在处理it的时候自注意力会让模型“回头看”前面的词并发现animal和it之间存在强关联street和it之间的关联很弱。自注意力机制工作的时候每个词都会生成3个关键向量QQueryKKeyVValue• Q向量表示我想要寻找什么信息• K向量表示我能提供什么信息可以被谁匹配• V向量表示我实际是什么内容仍以上文的it为例输入的语句的每个词都会生成自己的QKV向量。例如animal和it词QKVanimal处理animal的时候关注谁表示自己是名词、主语、有生命的表示自己的语义是 动物it处理it的时候关注谁找主语表示自己是一个代词没有特殊语义拆解完QKV之后就是自注意力的计算过程计算注意力得分、归一化、加权求和注意力得分为了判断it到底是什么这时候模型用it的Q向量去和每个词的K向量计算相关性做点积计算这里算出来的就是it和每个词的“注意力得分”得分越高说明关联性越大。归一化上面的注意力分数通过softmax函数转成一组总和为1的权重向量这个权重表示在理解当前词的时候应该给其他的词分配多少“注意力”加权求和将权重分别乘以每个词的V向量并求和得到新的向量。这个向量是it带上和所有词关系的一种向量表示只是这个表示里面it和animal的关联最大上述计算过程的数学公式表示为注意力机制代码def scaled_dot_product_attention(query, key, value, query_maskNone, key_maskNone, maskNone): dim_k query.size(-1) scores torch.bmm(query, key.transpose(1, 2)) / sqrt(dim_k) if query_mask is not None and key_mask is not None: mask torch.bmm(query_mask.unsqueeze(-1), key_mask.unsqueeze(1)) if mask is not None: scores scores.masked_fill(mask 0, -float(inf)) weights F.softmax(scores, dim-1) return torch.bmm(weights, value)这段代码还考虑到了Q、K、V序列的Mask填充字符不应该参与计算因此将对应的注意力分数设置为负无穷这样softmax计算后对应的注意力权重就变成0。Transformer结构原始的Transformer架构模型包括Encoder和Decoder两部分Encoder负责理解输入的语句Decoder负责生成目标句子利用Encoder提供的语义和已经生成的内容来推测下一步输出的内容。场景的模型分为纯Encoder、纯Decoder、Encoder-Decoder三类• 纯Encoder适合语义理解的模型例如语句分类• 纯Decoder适合纯文本生成任务例如GPT• Encoder-Decoder适合根据给定输入得到输出的任务例如翻译Encoder多头注意力因为词语之间的关系错综复杂所以仅仅靠一组Q、K、V计算出来的相关性可能不够。因此出现了多头注意力。多头注意力会把Q、K、V进行线性投影切分成h份。每一份进行独立的自注意力计算。相当于每一份头都对应一个领域的问题获取到不同方面的信息最后把这h个头的信息拼接成一份达到增强表达能力的目的。多头注意力的伪代码最终会保证矩阵计算输入输出维度一致def multi_head_attention(query,key,value,num_heads,d_model): head_dimd_model batch_sizequery.shape[0] seq_len_q query.shape[1] seq_len_k key.shape[1] seq_len_v value.shape[1] #1.线性投影 W_Qcreate_parameter(d_model,d_model) W_Kcreate_parameter(d_model,d_model) W_Vcreate_parameter(d_model,d_model) W_Ocreate_parameter(d_model,d_model) #输出矩阵投影 #2.投影输入 Qmatmul(query,W_Q) #shape: (batch_size, seq_len_q, d_model) Kmatmul(query,W_K) #shape: (batch_size, seq_len_k, d_model) Vmatmul(query,W_V) #shape: (batch_size, seq_len_v, d_model) #3.维度拆分矩阵转置 Qreshape(Q,(batch_size, seq_len_q, num_heads, head_dim)) Kreshape(Q,(batch_size, seq_len_k, num_heads, head_dim)) Vreshape(Q,(batch_size, seq_len_v, num_heads, head_dim)) Q transpose(Q, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_q, head_dim) K transpose(K, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_k, head_dim) V transpose(V, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_v, head_dim) #4.计算注意力分和加权求和 attention_scores matmul(Q, transpose(K, (0, 1, 3, 2))) #shape: (batch_size, num_heads, seq_len_q, seq_len_k) attention_scores attention_scores / sqrt(head_dim) attention_weights softmax(attention_scores, dim-1) #shape: (batch_size, num_heads, seq_len_q, seq_len_k) attention_output matmul(attention_weights, V) #shape: (batch_size, num_heads, seq_len_q, head_dim) #5.转置回原始顺序合并所有头 attention_output transpose(attention_output, (0, 2, 1, 3)) #shape: (batch_size, seq_len_q, num_heads, head_dim) attention_output reshape(attention_output, (batch_size, seq_len_q, d_model)) #6.线性投影 output matmul(attention_output, W_O) #shape: (batch_size, seq_len_q, d_model) return ouput形式化表达为FNN前馈层FNN前馈层全称是 position-wise feed-forward layer包含了两层全连接神经网络。注意力机制聚合上下文信息后通过前馈层对每个token的向量表示做非线性的变换目的就是弥补注意力机制表达上的不足。FNN工作流程分为三步• 扩维线性变换常见做法是让第一层的维度扩4倍目的获取更高维度组合更加复杂的特征• 非线性激活函数• 降维线性变换确保FNN输出的维度和输入一致FNN层的伪代码class FeedForward(nn.Module): def __init__(self, config): super().__init__() self.linear_1 nn.Linear(config.hidden_size, config.intermediate_size) self.linear_2 nn.Linear(config.intermediate_size, config.hidden_size) self.gelu nn.GELU() self.dropout nn.Dropout(config.hidden_dropout_prob) def forward(self, x): x self.linear_1(x) x self.gelu(x) x self.linear_2(x) x self.dropout(x) return x残差连接和层归一化每一层在多头注意力和FNN子层后面都会存在一个残差连接和层归一化• 残差连接把输入直接加到输出始终保持原始信息特征还在• 层归一化对单个样本的所有特征进行归一化使其均值为0方差为1。目的是减小波动避免后面张量运算出来的值梯度爆炸残差连接和层归一化的顺序在不同的架构不同两种主要顺序为Post-LN(层归一化在残差之后) 和 Pre-LN(层归一化在残差之前)• Post-LN理论上表示能力更强训练不稳定需要学习率预热• Pre-LN训练稳定不需要学习率预热在现代大模型场景下主流更选择更适合深层模型的Pre-LN架构也就是先层归一化再做残差连接Post-LN伪代码def forward(self,x): attn_outputself.self_attn(x) xxattn_output #残差连接 xself.norm(x) #层归一化 ffn_outputself.feed_forward(x) xxffn_output xself.norm(x) return xPre-LN伪代码def forward(self,x): residualx xself.norm(x) attn_outputself.self_attn(x) xresidualattn_output residualx xself.norm(x) ffn_outputself.feed_forward(x) xresidualffn_output return xDecoderDecoder的结构和Encoder大致相同区别在于Encoder只有一个注意力层Decoder有2个注意力层。• 掩码多头自注意力层和Encoder的自注意力层基本一致但是会掩盖输入的注意力权重。在decoder的工作中每次训练都会把完整的输入给到模型例如生成的句子是I love cats,当预测到cats到时候模型只能看到~~ I love否则就会变成作弊。假设原始注意力分数为~~t1 t2 t3 t1 [1, 2, 3] t2 [4, 5, 6] t3 [7, 8, 9]t1只能看到t1t2只能看到t1t2t3只能看到t1t2t3应用掩码后此矩阵就会变成t1 t2 t3 t1 [1, x, x] t2 [4, 5, x] t3 [7, 8, 9]• 编码器-解码器注意力头连接Encoder和Decoder他的K和V来自Encoder到输出表示Encoder对输入语句的理解。这一层只有Encoder-Decoder类型的模型才有。总结理解Transformer对于普通开发者来说可以• 更好地使用大模型• 理解提示工程背后的逻辑在未来构建自己的智能应用时知道“模型是怎么看懂一句话的”这个世界正在被“注意力”重新定义——而你已经迈出了理解它的第一步。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事02适学人群应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。vx扫描下方二维码即可本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发