北京做网站的公司有哪些医疗网站专题模板
2026/4/18 7:40:06 网站建设 项目流程
北京做网站的公司有哪些,医疗网站专题模板,网站建设全国排行,北京东宏建设网站本文系统梳理了大语言模型训练全周期的四个核心阶段#xff1a;预训练、有监督微调、奖励建模和强化学习。预训练阶段通过海量数据构建基础语言能力#xff1b;SFT阶段使模型学会遵循人类指令#xff1b;奖励建模和RLHF阶段则将人类价值观编码到模型中#xff0c;提升输出的…本文系统梳理了大语言模型训练全周期的四个核心阶段预训练、有监督微调、奖励建模和强化学习。预训练阶段通过海量数据构建基础语言能力SFT阶段使模型学会遵循人类指令奖励建模和RLHF阶段则将人类价值观编码到模型中提升输出的有用性、安全性和诚实性。这四个阶段相互依赖、层层递进共同构成了完整的模型训练生命周期是构建高性能对话式AI系统的标准方法。引言近年来以ChatGPT、Claude、LLaMA为代表的大模型Large Language Models, LLMs在自然语言处理领域取得了突破性进展。这些模型展现出的强大对话能力、知识推理能力和指令遵循能力很大程度上归功于一套系统化的训练范式——从大规模无监督预训练到有监督微调再到基于人类反馈的强化学习RLHF。这一完整训练周期不仅解决了传统预训练模型对齐Alignment问题更使模型能够安全、有用、诚实地响应人类指令成为当前构建对话式AI系统的标准流程。全周期训练的核心意义在于预训练阶段赋予模型基础语言能力和世界知识有监督微调使模型学会遵循指令奖励建模将人类偏好量化强化学习阶段则通过优化策略使模型输出更符合人类价值观。这种多阶段渐进式训练方法相比单一预训练或微调在模型安全性、可控性和有用性方面实现了质的飞跃是构建负责任AI系统的重要技术路径。做一个形象的类比这四个阶段相当于人的求学之路预训练阶段相当于是小学生有监督微调阶段相当于是中学生奖励建模阶段相当于是大学生强化学习阶段相当于是社会人同时在预训练阶段中所消耗的算力资源是最大的大约相当于其他阶段的 10100 倍或者预训练所耗费的时间在整个训练过程中可能要占到 99% 以上。预训练阶段2.1 数据准备预训练阶段使用大规模、多样化的无标注文本语料数据规模通常在数百GB到数TB级别。数据来源包括网页爬取如Common Crawl、书籍、学术论文、代码仓库等。数据清洗和预处理是关键环节需去除低质量文本、重复内容、有害信息并进行去重、语言识别、格式标准化等操作。高质量的数据集是模型性能的基础保障。2.2 模型架构现代大模型普遍采用Transformer架构作为核心组件具体包括自注意力机制Self-Attention计算序列中每个位置与其他所有位置的关系权重实现长距离依赖建模多头注意力Multi-Head Attention并行计算多个注意力头捕获不同类型的依赖关系前馈神经网络Feed-Forward Network对每个位置进行非线性变换残差连接和层归一化缓解梯度消失加速训练收敛主流架构分为自回归模型如GPT系列和自编码模型如BERT大语言模型多采用自回归架构通过因果掩码确保生成时的自回归特性。2.3 生成基础模型用于训练的语料样本包含如此之多的 Token它们应该如何送入 GPT Transformer 中呢它并非一个挨一个的送入而是以一批一批的送入每一批次的数据可以看成一个数组其大小为 B * TB: 是数组的行数T: 是超参数中的上下文长度当然上图中 B4/T10 仅仅是一个例子实际训练中B 和 T 的取值都是比较大的而超参数Batch Size 设置的就是每次批量传输的的数据量GPT3-175B 和 LLaMA2-65B 分别有 3.2M 和 4M。每条训练语料都会有一个结束符 |endoftext| 即图中红色的 50256 向量值它指示 Transformer 上一条语料已经结束下一条语料即将开始。GPT Transformer 是一个拥有超大规模参数的深度神经网络模型正是这些参数的取值权重组合在一起才能输出了相应的预测结果概率而 Transformer 就是通过预测结果再反向更新自己的参数权重。这个过程叫做反向传播是预训练中重要的一步也是产生最大消耗的一步因为这种更新不是一次性完成的而是多次迭代逐步逼近的过程。有监督微调Supervised Fine-Tuning, SFT在这个阶段需要收集少量但是高质量的数据集。算法是没有变化的只是换了一个训练集然后进行语言建模在训练之后得到一个SFT模型有监督的微调模型你可以实际部署这些模型它们是真正的助手并且在某种程度上是有用的3.1 SFT 监督微调基本概念SFTSupervised Fine-Tuning监督微调是指在源数据集上预训练一个神经网络模型即源模型。然后创建一个新的神经网络模型即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关因此在目标模型中不予采用。微调时为目标模型添加一个输出大小为目标数据集类别个数的输出层并随机初始化该层的模型参数。在目标数据集上训练目标模型时将从头训练到输出层其余层的参数都基于源模型的参数微调得到。3.2 监督微调的特点监督式微调能够利用预训练模型的参数和结构避免从头开始训练模型从而加速模型的训练过程并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先需要大量的标注数据用于目标任务的微调如果标注数据不足可能会导致微调后的模型表现不佳。其次由于预训练模型的参数和结构对微调后的模型性能有很大影响因此选择合适的预训练模型也很重要。4.奖励建模Reward Modeling4.1 概念在大语言模型完成 SFT 监督微调后下一阶段是构建一个奖励模型来对问答作出得分评价。奖励模型源于强化学习中的奖励函数能对当前的状态刻画一个分数来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高则奖励模型输出的分数也越高。4.2 架构奖励模型RM 模型将 SFT 模型最后一层的 softmax 去掉即最后一层不用 softmax改成一个线性层。RM 模型的输入是问题和答案输出是一个标量即分数。由于模型太大不够稳定损失值很难收敛且小模型成本较低因此RM 模型采用参数量为 6B 的模型而不使用 175B 的模型。奖励模型的训练数据是人工对问题的每个答案进行排名如下图所示对于每个问题给出若干答案然后工人进行排序而奖励模型就是利用排序的结果来进行反向传播训练.奖励模型的损失函数采用Pairwise Ranking Loss公式如下所示l o s s ( θ ) − ( K 2 ) 1 E ( x , y w , y l ) D [ l o g ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] loss(θ)−(K2)1E(x,yw,yl) D[log(σ(rθ(x,yw)−rθ(x,yl)))]loss(θ)−(K2)1E(x,yw,yl)D[log(σ(rθ(x,yw)−rθ(x,yl)))]其中D人工对答案进行排序的数据集x数据集D中的问题K每个问题对应的答案数量yw和yl问题x对应的K个答案中的两个且yw的排序比yl高由于是一对也称 pairwise rθ(x,y)需要训练的 RM 模型对于输入的一对x和y得到的标量分数θRM 模型需要优化的参数。奖励模型通过与人类专家进行交互获得对于生成响应质量的反馈信号从而进一步提升大语言模型的生成能力和自然度。与监督模型不同的是奖励模型通过打分的形式使得生成的文本更加自然逼真让大语言模型的生成能力更进一步。强化学习PPO算法与RLHF流程5.1 PPO 强化学习概念大模型完成奖励模型的训练后下一个阶段是训练强化学习模型RL 模型也是最后一个阶段。大模型微调中训练 RL 模型采用的优化算法是 PPOProximal Policy Optimization近端策略优化算法即对设定的目标函数通过随机梯度下降进行优化。近端策略优化是一种深度强化学习算法用于训练智能体在复杂环境中学习和执行任务。通过智能体的训练使得其在与环境的交互中能够最大化累积回报从而达成指定任务目标。这里的智能体在大语言模型中指的就是 RL 模型。5.2 PPO 强化学习原理RL 模型的初始模型采用 SFT 微调之后的大语言预训练模型。训练 RL 模型的数据集只需要收集问题集Prompt 集不需要对问题进行标注。问题集通过 RL 模型生成答案文本然后将问题和答案输入上一步训练的 RW 模型进行打分来评价生成的文本质量而训练 RL 模型的目标是使得生成的文本要在 RW 模型上获得尽可能高的得分。将初始语言模型的微调任务建模为强化学习RL问题需要定义策略policy、动作空间action space和奖励函数reward function等基本要素。策略就是基于该语言模型接收 prompt 作为输入然后输出一系列文本或文本的概率分布而动作空间就是词表所有 token 在所有输出位置的排列组合观察空间则是可能的输入 token 序列即 prompt为词表所有 token 在所有输入位置的排列组合而奖励函数则是上一阶段训好的 RM 模型配合一些策略层面的约束进行的奖励计算。该阶段流程如下图所示RL 模型训练的损失函数公式如下o b j e c t i v e ( ϕ ) E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β l o g ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] γ E x ∼ D p r e t r a i n [ l o g ( π ϕ R L ( x ) ) ] objective(ϕ)E(x,y)∼DπϕRL[rθ(x,y)−βlog(πϕRL(y∣x)/πSFT(y∣x))]γEx∼Dpretrain[log(πϕRL(x))]objective(ϕ)E(x,y)∼DπϕRL[rθ(x,y)−βlog(πϕRL(y∣x)/πSFT(y∣x))]γEx∼Dpretrain[log(πϕRL(x))]总结本文系统梳理了大语言模型训练全周期的四个核心阶段预训练、有监督微调、奖励建模和强化学习。这一多阶段训练范式已成为构建高性能对话式AI系统的标准方法其核心价值在于能力基础构建预训练阶段通过海量无标注数据学习语言统计规律和世界知识。指令遵循能力SFT阶段使模型学会理解并响应人类指令偏好对齐奖励建模和RLHF阶段将人类价值观编码到模型中提升输出的有用性、安全性和诚实性各阶段相互依赖、层层递进缺一不可。预训练是基础SFT是能力定向RLHF是价值观对齐共同构成完整的模型训练生命周期。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询