做搜狗网站frontpage做网站教程
2026/3/26 10:04:08 网站建设 项目流程
做搜狗网站,frontpage做网站教程,衡阳网站页面设计公司,北京视频网站建设TL;DR 本文基于开源的预训练语料库#xff0c;从零训练了 100 多个 1B 和 4B 的 LLM#xff0c;包括了“预训练、持续预训练、SFT、RL” 4 个阶段#xff0c;分别评估其上游#xff08;语言建模#xff09;与下游#xff08;任务求解#xff09;的能力#xff0c;系统…TL;DR本文基于开源的预训练语料库从零训练了 100 多个 1B 和 4B 的 LLM包括了“预训练、持续预训练、SFT、RL” 4 个阶段分别评估其上游语言建模与下游任务求解的能力系统分析了各训练阶段的设计权衡与 Scaling 行为解决了以往训练阶段割裂、实验不透明的问题。为促进开放研究和可复现性本文发布了所有预训练和后训练模型、各阶段的训练数据以及完整的训练与评估流水线。本文并未提出新的模型架构而是通过大量的一系列实验来进行系统性分析并给出了具有较高参考价值的 takeways。一、实验场景1.1 训练设置使用 1B 和 4B 参数的 LLaMA-2 架构来初始化所有模型训练流水线包括 4 个训练阶段预训练在 FineWeb-Edu 上进行在 Chinchilla 缩放法则的指导下研究“轻度过训练”和“重度过训练”对任务性能的影响。持续预训练CPT在 FineMath 上进行token 预算从 20 亿到 420 亿。为缓解通用领域知识的灾难性遗忘问题我们还引入了预训练数据重放策略。监督微调SFT应用于从 GSM8K 和 MATH 扩展得到的问答对数据集该数据集来源于 MetaMathQA、OpenMathInstruct2 和 NuminaMath 的混合。我们使用模型正确性一致性过滤低质量提示丢弃模型间共识为零的样本。强化学习RL采用 PPO 进行使用二值可验证奖励。强化学习阶段使用与 SFT 相同的数据源但确保与 SFT 数据集无重叠。1.2 评估任务上游评估任务填空任务评估 Language Modeling 能力。这些任务通过下一个 token 预测来评估模型的语言模型化能力无需具备对话能力。所选数据集被广泛用于评估通用推理能力与语言理解能力HellaSwag常识性完形填空Winogrande共指消解推理PIQA物理常识推理OBQA开放式知识问答ARC-Easy/Challenge科学与多步推理下游评估任务开放式、生成式任务这些任务旨在评估模型在生成式对话情景下的问题求解能力。包括 ID 任务和 OOD 任务ID Tasks数学推理。包括GSM8K-Platinum高质量的小学数学应用题MATH竞赛级别的数学问题求解。OOD TasksCRUXEval代码推理与程序输出预测BGQA含矛盾的逻辑推理TabMWP基于表格的数学推理StrategyQA多跳常识推理与策略推理。1.3 评估指标Pass1确定性输出仅生成一个结果温度值 0Maj16在 16 个随机采样结果中进行多数投票温度值 1RM16从 16 个采样结果中选取 Outcome Reward ModelORM评分最高的一个作为最终结果Pass16若 16 个采样结果中任意一个正确则视为该问题已解决ORM 得分使用一个结果奖励模型Skywork-Reward-Llama-3.1-8B-v0.2根据输入的问题和生成的回复为生成的解决方案分配标量得分。该指标作为解决方案质量的代理。二、三个阶段的 Scaling 研究2.1 预训练阶段1收益递减点在哪下图中横轴是预训练的 tokens 规模纵轴是平均准确率可以看到对于 0.5B 和 1B 的模型在预训练 tokens 在 80 倍提升到 320 倍的过程中性能几乎不怎么再增长了。对于 4B 的模型尽管还在增长但边际效益已经明显下降了。Takeway 1.过度的通用领域预训练虽可提升上游任务性能但存在明显的收益递减现象本研究中饱和点出现在约 80 倍至 160 倍模型参数量之间。2“越多并不越好”下游任务中的意外发现无休止地扩大预训练规模是否总能提升下游任务表现在下图中我们评估了不同预训练策略对真实世界下游任务性能的影响涵盖两类任务一类与中期训练和后期训练数据相似的任务另一类则是全新的分布外OOD任务。值得注意的是过度预训练不仅未必提升、甚至可能损害下游推理能力。在 OOD 任务上的准确率在超过 160BT 预训练预算后开始下降且这一退化现象还伴随着 ORM 得分的降低表明整体生成质量已出现一定程度的下降。Takeway 2.过度的通用领域预训练并不总能提升领域特定的后期训练效果反而可能导致某些下游任务性能下降本研究中性能饱和点出现在模型规模扩大约 80 倍至 160 倍时。3小模型 vs. 大模型预算与算力的权衡一种常见假设是更大的模型总是会优于更小的模型。但在“预训练资源受限”的设置下实验结果发现在资源有限的情况下经过良好调优的小型模型可能反而更为有效而大型模型仅在数据量达到某一阈值后性能才开始显现优势。Takeway 3.在预训练预算受限时经过后训练post-training的较小模型甚至可能超越更大的对应模型反之一旦预训练所用的 token 数量进入饱和区间增大模型规模便能显著提升模型在领域内任务上的性能以及在分布外OOD场景下的泛化能力。2.2 持续预训练本文中持续预训练使用的数据是 FineMath即领域特定知识而非通用领域知识这是与“预训练”的关键区别。1持续预训练中的灾难性遗忘模型如何在适应新领域的同时避免遗忘旧知识我们研究了是否使用通用领域数据进行“重放”的持续预训练CPT。「预训练数据重放策略」指的是将预训练期间的一部分数据重放在持续预训练期间。结果表明仅需少量通用数据重放仅 5%即可在习得新技能与保留广泛知识之间实现关键平衡——这是一种简单却极为有效的实用领域自适应技巧。Takeway 4.在领域特定数据上开展持续预训练会导致预训练知识的灾难性遗忘从而损害上游和下游性能而引入少量重放预算例如 5%则可有效缓解这一性能退化。2持续预训练对后训练阶段的重要性我们测试了不同规模 CPT 数据量对下游任务结果的影响并在下图中展示了相应结果。结果发现领域数据不足可能导致模型即使经过 SFT 或 RL 后仍难以良好适配该领域。相反投入资源构建丰富、高质量的领域数据集对实现优异的训后效果至关重要。Takeway 5.领域专用的 post-training 应以充足且高质量的领域专用持续预训练CPT数据为支撑若缺乏此类数据SFT 性能将始终不理想而 RL 甚至可能进一步削弱该性能。我们的研究揭示随着所用领域专用 CPT 词元数量增加模型在该领域内的准确率呈现持续上升趋势。这一稳定提升趋势有力支持了构建更大规模领域专用数据集的必要性——尤其当目标是提升下游推理能力或借助强化学习进一步优化性能时。Takeway 6.随着领域专用 CPT 数据量增加模型在该领域的下游任务性能稳步提升且 SFT 模型也能从后续强化学习微调中获得更显著的收益。我们分析了大规模持续预训练CPT对 ID 任务和 OOD 任务的影响。精心设计的领域自适应方法可通过增强模型在 OOD 任务上的可迁移推理能力构建更具灵活性的模型——而不仅限于领域专家型模型。Takeway 7.当拥有足够多的领域特异性 CPT 数据时在 ID 任务上进行后训练不仅能提升模型在该领域的性能还能有效泛化至 OOD 任务。2.3 Post-Training1SFT收益递减与过拟合风险我们同时调整监督微调SFT的训练轮数和数据集规模并绘制如下表结果表明更多的 SFT 并不总是更优。过拟合确实存在且会损害模型泛化能力——微调过程需谨慎进行并辅以严格的验证。Takeway 8.过度的 SFT 虽能提升分布内ID性能但边际效益递减而它未必能提升、甚至可能损害分布外OOD性能。通过系统性地在 RL 之前增加 SFT 的强度我们可衡量强化学习进一步提升的剩余空间。当模型已因监督微调而过度专业化时强化学习几乎无法再带来显著改进。将监督微调保持在适度水平可为强化学习发挥更大作用留出更多空间。Takeway 9.过度的 SFT尤其是训练轮数过多可能限制后续 RL 的进一步提升。2RL收益递减现象与实用解决方案我们扩大了强化学习RL的训练轮数和数据规模参见下图记录性能在不同设定下的变化情况。对于 ID 任务和 OOD 任务RL 带来的大部分收益均出现在早期阶段。在针对 10 亿参数模型开展的研究中将训练轮数设定为 4–8 轮或样本量设定为约 10 万条可在效果与成本之间取得实际可行的平衡。Takeway 10.使用过多的训练轮次或样本进行 RL虽可提升模型在分布内ID和分布外OOD下游任务上的性能但收益递减在本研究中饱和现象通常出现在 4–8 轮或 50K–100K 样本时。强化学习究竟提升了模型的推理能力还是仅使其采样更自信我们深入探究了强化学习对解的多样性与质量的影响。结果表明达到饱和后强化学习主要起“锐化”输出分布的作用——即提高正确答案被采样到的概率但并未从根本上提升推理能力即无法使模型解决原本无法解决的问题。Takeway 11.在饱和区间之外强化学习主要提升高质量推理路径rollouts的采样概率但未必能增强模型的根本推理能力。3数据约束下的 SFT/RL 分配在下游预算有限的情况下您应该将预算用于 SFT 还是 RL我们在 1B 和 4B 模型上实验了不同的 SFT/RL 数据分配比例如下图以量化领域内性能与分布外OOD性能之间的权衡。请根据具体目标选择分配方案**若需构建专业型模型则倾向 SFT若需构建通用型模型则倾向 RL。**这有助于针对最关键的任务定制语言模型。Takeway 12.在下游数据预算受限的情况下将更多样本分配给 SFT 可在提升领域内性能的同时削弱分布外OOD泛化能力而将更多样本分配给 RL 则有助于提升 OOD 性能。2.4 ORM 分数作为验证指标我们评估 ORM结果奖励模型分数在预测下游任务成功率方面的能力。**ORM 评分能够真实反映模型后训练阶段的推理质量。**这有助于研究人员和工程师在后训练过程中更可靠地监控和优化模型尤其当缺乏验证集即无真实标签数据或收集验证集成本过高时。Takeway 13.相较于验证损失ORM 分数可能是一种更可靠的无监督验证指标有助于在后训练阶段预测模型在下游任务上的表现。值得注意的是一个 8B 参数规模的奖励模型所输出的 ORM 分数与多个下游推理任务中 1B 参数规模模型的问题解决准确率高度相关。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询