2026/3/25 13:22:23
网站建设
项目流程
刚建的网站百度搜不到,scala做网站,网站建设教程参加苏州久远网络,wordpress破解密码大语言模型训练分为三步#xff1a;预训练将互联网信息转化为token#xff0c;训练出base model#xff08;互联网内容模拟器#xff09;#xff1b;监督微调通过问答数据使模型学会回答问题#xff0c;但会产生幻觉#xff1b;强化学习让模型自行探索最优解#xff0c…大语言模型训练分为三步预训练将互联网信息转化为token训练出base model互联网内容模拟器监督微调通过问答数据使模型学会回答问题但会产生幻觉强化学习让模型自行探索最优解产生思维链并可能创造超越人类的知识。文章揭示大模型本质是统计学预测模型类似于人类基于经验的逻辑预测暗示AI可能以独特方式重走人类智能进化之路。【前言】生活中 AI 用得已经越来越多一直想要了解其大概原理这样才能知道 AI 能做什么不能做什么。恰逢最近看了OpenAI 联合创始人安德烈·卡帕西一个长达 3 小时的视频用非常通俗易懂的方式讲解了像 chatGPT 这样的大语言模型是怎么一步步训练出来的像我这样一个基本没有技术背景的人也能看懂是非常优秀的科普视频。大家可以前往 B 站搜索“安德烈·卡帕西深入探索像ChatGPT这样的大语言模型”即可观看全文都有字幕不用担心听不懂。本文也从 3 小时的视频中提炼出最核心的内容希望能帮助你“不求甚解”地大概了解AI 大语言模型的基本训练原理。总览对大语言模型的训练跟我们人类学习知识的逻辑是一脉相承的视频中最让我印象深刻的一点是安德烈·卡帕西把大语言模型的训练逻辑类比成我们上学读书学习知识的过程竟然是出奇的一致。回想我们小时候的课本每个知识点的章节讲解都包含三个步骤第一步、学习知识点单纯地通过阅读了解相关知识。完成这一步我们只掌握了知识的表层却不知道如何使用。第二步、查看经典题目与解法通过查看经典题目了解知识点如何运用来解决实际问题。完成这一步我们能模仿这些经典解法去解决类似的问题。第三步、课后习题这个环节里面课本只会提供问题与答案需要我们自己研究如何解题。每个人的脑回路都不一样适合的解法也都不一样我们需要自己摸索各种可能的解法并找到最适合自己的解法。这个过程中甚至会激发出比经典解法更高效的方法。完成这一步我们就真正做到了对知识点的融会贯通。大语言模型训练的三个步骤也正正对应着这三步即接下来逐一介绍每个步骤。第一步、预训练【核心流程】1、学习信息搜集要学习知识自然要先获取信息而最丰富而免费的信息自然是来自互联网。因此最初的模型训练内容主要来自对互联网信息的爬取。当然这里要做的不是简单的爬取而是包含了过滤劣质网站、文本提取、信息去重等一系列数据加工的过程。2、信息的编码与压缩生成“token”爬取到的信息都是文字人类能通过文字理解其所表达的内容但计算机是不能的。那计算机能理解什么呢是数字与计算。因此要让计算机能学习这些信息首先要把文字转化为数字。这里也可以分为两小步第一步对文字的基本单元做编码例如英文而言自然是每个字母对应一个数字 ID中文则是每个汉字对应一个数字 ID第二步进一步压缩信息把信息中高频出现的“单元序列组合”编码出一个新的 数字ID这样就可以用更短的 ID 序列更高效地表达一句话计算机需要理解的成本就会更低。例如在下图这个案例中既有“你”、“的”这样的独立汉字用一个数字ID来表示也有“你好”、“今天”这样的日常短语用一个数字 ID 来表示。而这里代表一个文字或短语的数字 ID就是所谓的大语言模型的“token”是计算机理解与输出信息的最小“信息单元”。3、信息学习神经网络“预测”模型的训练完成前面两步后我们已经有了用于学习的原材料数据接下来便可用于模型学习。那么什么是所谓的学习回到我们期望模型的效果是可以像人类一样根据上文内容输出适合的下文内容。也就是说根据上文“预测”下文的内容。因此这一步我们使用统计学中最前沿的“预测”模型神经网络模型再基于我们搜集到的原材料数据训练出一个基于上文输出下文的预测模型。浅显地介绍下这个神经网络模型的训练方法所谓的神经网络模型其实就是一个巨大的包含大量参数计算的数学方程式但其核心目标跟我们小学学的一元一次方程是类似的也是根据输入的“x”上文跟模型的参数“w”一系列计算输出一个结果“y”下文。但也有两个区别一个是我们之前定义的 token 并不是一个具有数值计算意义的数字而只是一个代表对应文字的“标识符”ID一个是这里输出的结果代表的是下文出现各个 token 的分别的概率值。参数训练一开始参数都是随机的数据输出的结果也是随机的。我们把从互联网上搜集到的学习材料都喂给模型进行训练。模型以提升学习材料中“正确”的下文 token 的概率为计算目标不断地调整参数。【得到的成果】当我们把全部互联网搜集到的知识都喂给这个拥有数十亿级参数的超大模型完成参数的训练后。我们就得到了一个可以根据“上文”预测下文的预测模型。而在预测时1、每一次预测都根据上文输入的全部内容只输出一个下文“token”2、根据上文输入的全部内容本质输出的结果是各个 token 出现的“概率”然后基于这个概率进行一次抽样输出一个下文“token”。正因为存在这个抽样而不是直接就只取概率最大的 token因此即使一样的上文每一次得到的下文都是不完全一样的。我们得到的只是一个根据上文不断预测下文 token的预测器 且是随机的每次的预测结果都不一样还并不是一个能回答问题的助理assistant。我们把这一步得到的模型叫做 base model。案例下图这个例子很有意思。模型之所以能回答这个问题并不是因为它理解了这个问题以及会进行计算而是大概率 22 这样的问题在喂给模型的训练数据中出现过模型能够回忆出来。而如果放任模型不断地输出下文它就开始走向了跟问题完全没关系的哲学领域的内容当中…此时的模型还不知道应该如何正确地回答问题。【这个预测模型的本质】base model 的本质是互联网内容的模拟器。相当于把整个互联网的内容都压缩成一堆参数。而且这些内容是模糊的/有损的、概率性的/统计性的。特性它是一个token级别的互联网内容模拟器具有随机性/概率性——每次运行都会得到不同的结果它能凭借记忆逐字复述一些训练文档模型的参数有点像互联网的一个有损压缩文件大量有用的世界知识存储在模型的参数中通过巧妙设计提示词你可以激活其记忆输出与提示词相关的内容但我们还能让模型变得更好于是咱们来到了模型训练的第二步。第二步、后训练之“监督微调”【背景】完成预训练后我们已经得到了一个可以根据“上文”预测“下文”的预测模型了唯一的问题是它还不大会处理“问答”这种场景中的下文预测。要解决这个问题很容易想到那就是增加“问答类内容”的样本量再训练一下模型对这方面“上文”的处理能力。这就是”监督微调“的核心原理。这个阶段的模型训练方法与预训练阶段是相同的唯一改变的是数据集的类型变成了一系列“对话问答”类的内容。【核心流程】1、构建对话问答类 token 序列我们构建了|im_start|、|im_sep|、|im_end|等在预训练时没有的全新人为定义的特殊token用于把对话内容结构化变成一种对话内容特有的 token 序列。这些特殊 token 就像对话的‘分隔符’明确告诉模型‘|im_start|user’后面是用户的问题‘|im_start|assistant’后面是正确回答帮助模型学会‘问答对应’”。2、构造海量的对话问答类内容用于模型训练接下来我们构建海量的涉及各个领域的对话问答内容供给模型进行训练。这一步需要耗费非常非常大的人力投入。所谓没有“人工”何来“智能”。而随着现在大语言模型的不断进步也会通过大语言模型来生成这些数据用于新的模型训练。【得到的成果】完成训练后我们就得到了一个能够回答问题的模型我们称之为SFTsupervise fine tuning 监督微调 model。这个模型的本质是结合了预训练知识 以及从后训练数据集中习得的模仿人类回答问题方式的一个预测模型。听起来是不是很像我们在学习完课本的经典题目的解法后依样画葫芦地解决类似的问题案例完成这一步模型已经能很标准地回答一些常见问题了。【关于幻觉产生的原因以及其缓解方法】幻觉产生的原因如上文描述模型的本质是一个概率预测模型回答会基于统计学从概率中抽样给出一个答案即使答案的概率本身在模型计算结果中非常低也有出现的可能。案例下图这个例子中后训练数据集曾经出现过”who is“这样的问题案例。在模型完成训练后回答类似问题时即使向模型提问一个完全不存在的人orson kovacs模型也会模仿后训练中这类问题的回答方式基于预训练的知识模拟出一个答案即使这个答案在模型计算结果中概率是非常低的模型也会选择进行输出因此就会出现胡编乱造的回答。缓解方法1、让模型学会说不知道丰富后训练数据集添加会回答”不知道“的案例2、让模型学会借助工具对于模型不懂的内容让模型使用包括联网搜索、计算工具等能力让搜索结果、计算结果成为模型的信息源也就是成为输入进模型的“上文”的一部分再输出答案要缓解幻觉问题可以引入以下几类训练数据第三步、后训练之“强化学习”【背景】在监督微调的过程中后训练数据集的提供者教会了模型按他们的方式去回答问题模型是他们的模仿者。但对于一个问题是有多种解法的。而我们作为人类其实并不了解模型我们并不知道哪个解法是更能帮助模型获得正确答案的。就像小时候做数学题每道题都有几种解法而我们每个人的脑回路是不一样的并不是书本给的经典解法就最适合自己最终需要我们自己摸索出最适合自己的最舒适的解法可以帮助我们自己获得最高的准确率这个摸索过程中甚至能迸发出比经典解法更优的全新解法。而这就是我们这一步需要做的事情。我们只给到题目与答案然后让模型自己摸索出最适合自己的解法。【核心流程】1、我们提供问题然后让模型自己去生成一系列的解法2、这些解法中只有一部分是正确的3、我们再从这些解法中找到最优秀的解法既准确又精简高效的4、把这个优秀解法作为训练数据集去用于模型训练5、如此往复重复很多很多次…【得到的成果】通过强化学习我们得到了两个喜人的效果1、模型产生了思维链chains of thought。这就是我们使用 DeepSeek 等最前沿的大模型的时候看到的思考过程。因此我们把他们称之为推理模型reasoning model。思维链的一个很重要的特点在于让模型有了思考的过程而不是一上来就回答问题。而这个思考的过程都会成为“上文”的一部分还记得大模型的预测原理是基于全部的上文推测出下一个 token因此上文的内容越长越完整预测出来的“下文”质量自然也会越高。2、模型能产生超越人类已有知识的全新解法。强化学习第一次出圈就是击败人类最强围棋手的 alpha go。它正是通过强化学习人类只告诉了它围棋的规则跟目标然后它通过自己不断的训练最终训练出了人类围棋历史上从来未有过的落子方法最终超越了人类。如果它只是限制在模仿学习人类围棋手的历史案例那它是不可能超越人类的。当然大语言模型的训练要比 alpha go难得多。 因为围棋只是一个闭合领域问题规则有限而大语言模型要面对的是一个开放领域问题要解决各种各样的问题。因此需要找多足够多的练习题给到模型进行训练。总结最后再回顾一下模型训练的三个环节1、预训练获取基本知识2、监督微调查看大量实例模仿专家回答问题的方式3、强化学习提供习题让模型自己不断训练、试验、纠错直到找到正确的解法在上述训练方法的基础上模型不断进化并发展到现在支持多模态、多流程任务的模型。反思预测就等于逻辑吗了解完大语言模型的训练原理后最让我惊讶的是我们现在使用的可以解决这么多复杂问题甚至连高深数学题目都能解答的AI本质上只是一个统计学的“预测模型”吗我们人类独有的所谓“逻辑”能力就这么简单被一个“预测”模型所战胜了但转念一想会不会是我把“逻辑”想的太高深了。会不会是我们所拥有的“逻辑”本质上也是一种我们基于过去经验而对当前事情的一种“预测”当我们面对一个问题时所想到的解题路径也是我们基于自己过往经历类似事情时的成功或失败的反馈而得到的属于自己的一个解法。恰逢最近听了孟岩《无尽的探索》那期播客里面提到了美国计算机科学家、神经科学家杰夫·霍金斯的一本书《千脑智能》里面对大脑机制的阐述正是类似的或许我们人类自诩独有的“逻辑”与“智慧”就真的只是一种“预测模型”而已……或许硅基生命已然诞生正在以一种独特的方式重走着碳基智能的进化之路……如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】