2026/2/2 11:11:28
网站建设
项目流程
100种禁用的视频软件短视频,北京seo外包平台,网络空间搜索引擎,成都热点新闻最新01 主流开源模型体系目前主流的开源大语言模型体系大致分为三类#xff1a;
Prefix Decoder 系#xff1a;
输入端#xff1a;双向注意力#xff08;类似 Encoder#xff09;输出端#xff1a;单向注意力#xff08;类似 Decoder#xff09;代表模型#xff1a;ChatGL…01主流开源模型体系目前主流的开源大语言模型体系大致分为三类Prefix Decoder 系输入端双向注意力类似 Encoder输出端单向注意力类似 Decoder代表模型ChatGLM、ChatGLM2、U-PaLM特点prefix 部分 token 互相可见属于 Encoder-Decoder 折中方案缺点训练效率低Causal Decoder 系注意力严格自回归单向注意力即从左到右代表模型LLaMA 系列及衍生物特点预训练和下游任务完全一致zero-shot 表现最好优点训练效率高、zero-shot 能力强具备涌现能力缺点输入语义理解能力相对不足Encoder-Decoder 系输入端双向注意力更充分的语义理解输出端单向注意力生成时遵循因果性代表模型T5、Flan-T5、BART特点在理解类任务表现好缺点长文本生成表现差训练效率低02Attention Mask 的区别设输入序列长度为 nattention mask 矩阵 M ∈ ℝⁿˣⁿ1Encoder双向注意力所有 token 都能互相看到语义理解。2Causal Decoder单向注意力当前位置只能看到自身与之前的 token因果律。3Prefix Decoder折中03大模型训练目标1最大似然估计MLE根据已出现的 token预测下一个 token作文如下Causal Decoder在所有 token 上计算损失Prefix Decoder仅在输出部分计算损失2去噪自编码器Denoising Autoencoder随机替换/打乱文本段让模型恢复原始文本完形如下其中 x̃ 表示被随机破坏的输入代表模型T5、GLM-130B难点实现更复杂训练效率更低04涌现能力的原因猜测复杂任务由多个子任务组成子任务性能随模型规模平滑提升但整体任务指标可能出现“跳变”表现为涌现能力。模型容量与表示能力的非线性增强随着参数量增加模型可能跨越某种“能力门槛”。比如我们假设某个任务 T 有 5 个子任务 Sub-T 构成每个 sub-T 随着模型增长指标从 40% 提升到 60%但是最终任务的指标只从 1.1% 提升到了 7%也就是说宏观上看到了涌现现象但是子任务效果其实是平滑增长的。05为何大多数 LLM 采用 Decoder-only 结构原因如下Zero-shot 能力强无需大量标注数据也能在自监督学习下发挥最好性能。训练效率高与下游推理完全一致工程更简洁。理论上更优Encoder 的双向注意力在生成任务中可能引入低秩问题削弱表达能力。参数利用效率同等参数量下Encoder-Decoder 结构分摊了参数Decoder-only 全部用于生成更高效。06Layer normalization1Layer Norm如下μ特征的均值σ标准差归一化的缩放因子γ可训练的缩放参数β可训练的偏移参数ε防止除零的小常数Layer Norm 会对输入的每个 token 向量 按维度标准化使其均值为 0、方差为 1然后再通过 γβ 学习恢复合适的分布。2RMS NormRMSNorm 移除了均值项只保留均方根 (Root Mean Square)如下无 β 偏移项只保留缩放参数 γ计算更快对训练稳定性也有帮助RMS Norm 只控制输入的 尺度scale不调整均值因此更轻量常用于大型模型如 GPT-3 变体、PaLM。RMS Norm 简化了 Layer Norm 去除掉计算均值进行平移的部分。对比 LNRMS Norm 的计算速度更快。效果基本相当甚至略有提升。3Deep NormDeep Norm 主要是为了解决训练非常深的 Transformer 时梯度不稳定的问题比如 100 层执行 Layer Norm 之前up-scale 了残差连接alpha1初始化阶段 down-scale 了模型参数beta1残差形式其中 α 1/√(2N)N 为层数。在层与层之间的残差路径上控制信息流强度。这样可以避免残差累加过大导致梯度爆炸。import torch.nn as nn def deepnorm_init(w): if any(name in w.name for name in [ffn, v_proj, out_proj]): nn.init.xavier_normal_(w, gainmath.sqrt(2.0)) elif any(name in w.name for name in [q_proj, k_proj]): nn.init.xavier_normal_(w, gain1.0)LN 在 LLMs 中的不同位置区别Post-LN位置layer norm 在残差链接之后缺点Post-LN 在深层的梯度范式逐渐增大导致使用 post-LN 的深层 transformer 容易出现训练不稳定的问题输出质量高深层训练难Pre-LN位置layer norm 在残差链接中优点相比于 Post-LNPre-LN 在深层的梯度范式近似相等所以使用 Pre-LN 的深层 transformer 训练更稳定可以缓解训练不稳定问题缺点相比于 Post-LNPre-LN 的模型效果略差深层稳定略牺牲输出质量Sandwich-LN位置在 pre-LN 的基础上额外插入了一个 layer norm优点Cogview 用来避免值爆炸的问题缺点训练不稳定可能会导致训练崩溃。极深防爆普通训练易崩LLMs 各模型分别用了哪种 Layer normalization07LLMs 激活函数FFN前馈层基本计算公式如下输入向量 x ∈ ℝᵈ权重W₁ ∈ ℝᵈˣᵈᶠᶠW₂ ∈ ℝᵈᶠᶠˣᵈ偏置b₁, b₂激活函数f(·) 可以是 ReLU / GeLU / Swish 等中间维度dᶠᶠ 4d通常 Transformer 默认 4 倍扩展FFN 是在每个 token 上独立应用的两层 MLP。先升维扩展到更高维度空间再激活再降维回去。GeLU 激活函数如下特点平滑版本的 ReLU不是硬性截断而是概率化地保留输入。效果对小值衰减对大值接近线性。让模型既保留微弱信号又对强信号线性响应从而提高表达力和训练稳定性。应用BERT、GPT 系列广泛采用 GeLU。Swish 激活函数如下特点平滑、非单调激活函数比 ReLU/GeLU 更灵活。效果根据输入大小平滑放大或抑制信号使信息流更灵活且梯度传播更稳定。特殊情况当 β1 时就是常见的 Swish。应用在 EfficientNet、部分 LLM 变种中使用。GLU门控线性单元如下⊗ 表示逐元素乘法W, V ∈ ℝᵈˣᵈᶠᶠ输出由“值部分”和“门控部分”组合而成。用 GLU 替换 FFN 的写法引入门控机制可以选择性地传递信息类似 LSTM 的思想。允许重要信息通过提高表达能力同时控制计算冗余。GeLU-GLU 变体如下值路径xW 经过 GeLU 激活门路径xV 直接作为调制因子应用T5Google 的大规模预训练模型采用 GeGLU。把平滑激活和门控结合在 FFN 中既筛选重要特征又可调节信息流让模型表达力增强且训练稳定。Swish-GLU 变体如下值路径xW 经过 Swish 激活门路径xV 直接作为调制因子应用PaLMGoogle 超大规模 LLM采用 SwiGLU。将柔性调节Swish与门控结合使 FFN 在保留细微信号的同时有选择性地传递信息优化梯度流和训练稳定性尤其适合超大模型。参数量比较标准 FFN2 个权重矩阵W₁, W₂中间维度通常是 4d。GLU 变体需要 3 个权重矩阵W, V, W₂为了控制参数量中间维度通常改为 (2/3) · 4d 8/3 d。这样总体参数和计算量与标准 FFN 大致持平。LLMs 中常用的激活函数选择08Attention传统 Attention 存在哪些问题传统 Attention 存在 上下文长度 约束问题传统 Attention 速度慢内存占用大Attention 优化方向提升上下文长度加速、减少内存占用Attention 变体有哪些稀疏 attention。将稀疏偏差引入 attention 机制可以降低了复杂性线性化 attention。解开 attention 矩阵与内核特征图然后以相反的顺序计算 attention 以实现线性复杂度原型和内存压缩。这类方法减少了查询或键值记忆对的数量以减少注意力矩阵的大小低阶 self-Attention。这一系列工作捕获了 self-Attention 的低阶属性Attention 与先验。该研究探索了用先验 attention 分布来补充或替代标准 attention改进多头机制。该系列研究探索了不同的替代多头机制。Multi-head Attention 存在什么问题训练不会显著影响训练过程训练速度不变会引起非常细微的模型效果损失推理反复加载 KV cache , 导致内存开销大性能是内存受限介绍 Multi-Query AttentionMulti-Query Attention 在所有注意力头上共享 key 和 value。对比 Multi-head Attention 和 Multi-Query AttentionMulti-head Attention每个注意力头都有各自的 query、key 和 value。Multi-query Attention在所有的注意力头上共享 key 和 value。PaLM直接使用 Multi-query Attention保持 hidden size 和 FFN 结构 不变。Falcon为了保持总参数量一致将隐藏维度从 4096 增大到 4544多余参数分配给 Attention 和 FFN。ChatGLM2-6B采用 MQA / GQA 混合策略将 FFN 中间维度从 11008 增加到 13696多余参数分配给 FFN。Multi-Query Attention 这样做的好处是什么减少 KV cache 的大小减少显存占用提升推理速度。有哪些模型是使用 Multi-Query Attention代表模型PaLM、ChatGLM2、Falcon 等什么是 Grouped-query Attention介于 multi head 和 multi query 之间多个 key 和 value。有哪些大模型使用 Grouped-query AttentionChatGLM2LLaMA2-34B/70B 使用了 Grouped query attention。FlashAttention核心用分块 softmax 等价替代传统 softmax优点节约 HBM高效利用 SRAM省显存提速度代表模型Meta 推出的开源大模型 LLaMA阿联酋推出的开源大模型 Falcon 都使用了 Flash Attention 来加速计算和节省显存关键词HBM、SRAM、分块 Softmax、重计算、Kernel 融合。并行 transformer block用并行公式替换了串行提升了 15%的训练速度。在 8B 参数量规模会有轻微的模型效果损失;在 62B 参数量规模就不会损失模型效果。Falcon、PaLM 都使用了该技术来加速训练普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事02适学人群应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】