2026/4/3 5:46:48
网站建设
项目流程
建站工具论坛,深圳市建工集团,品牌互动营销案例,上海大公司有哪些在上一篇《Diffusion 的本质》中#xff0c;我们建立了一个视角#xff1a;几乎所有的图像生成式 AI#xff0c;本质上都在做同一件事——从数据分布 中采样。
好奇的读者会问#xff1a;那 LLM 这类文本为主的生成式 AI 呢#xff1f;
其实#xff0c;我们可以把上面那…在上一篇《Diffusion 的本质》中我们建立了一个视角几乎所有的图像生成式 AI本质上都在做同一件事——从数据分布 中采样。好奇的读者会问那 LLM 这类文本为主的生成式 AI 呢其实我们可以把上面那个结论中「图像」二字去掉不管是什么模态「从一个概率分布中采样」是大多数现代「生成式」AI 的一个通用抽象。好奇的读者此时又会问既然如此为什么用于文本生成的 LLM 和用于图像生成的 Diffusion 看上去差别这么大为什么不用一套技术呢这个想法非常好其实也是业界很多科学家和工程师努力的目标。我们就在这个系列教程中插入一个章节来讲讲这个问题的来龙去脉。这里是公众号「零一瓦舍」博主 tomsheep 是一个践行终身学习的硬核技术人。拥有丰富的行业经验和高效的学习方法论也经常分享一些致力于让新手也能看懂的「保姆式」知识解读。如果你想一同学习欢迎关注我。任何互动都非常欢迎也鼓励「批判性」转发一、生成即采样首先我们再聊一聊「生成即采样」这个抽象的合理性。如果不把生成看作「从分布中采样」还有别的方法吗当然有。比如规则写死一套规则比如如果是狗先画一个椭圆身子再画四条线当腿随机选个颜色填充……早期游戏里的地形和贴图通常是这么干的。虽然能生成多样的图但它们看起来都很假、很生硬。因为现实世界的复杂性比如毛发的质感、光影的反射是无法用几行代码规则写尽的。检索你发指令「画一只狗」模型去它庞大的数据库里翻找到一张匹配度高的「狗」的图片给你。如果你觉得这不是「生成」希望模型更有创造性一些。那我们可以不直接检索原图而是检索出一堆和你的描述相关度比较高的「特征」把这些特征融合拼装成一张新的图片。大名鼎鼎的声音转换软件 RVC原理其实差不多就是这样。确定性拟合训练一个模型输入「狗」强行让它拟合一个标准答案。但是世界上的狗类型千千万万如果你强行让模型输出一个「确定」的答案模型为了「既像金毛又像哈士奇」最后会生成一个四不像。其中「确定性拟合」的方法是初学者最容易陷入的误区也解释了为什么我们要拥抱「概率」。就好比你问一万个人「我们要去哪吃饭」大家有的说火锅有的说日料。概率分布的做法是掷骰子选一个这次吃火锅下次可能吃日料。确定性的做法是把所有人的坐标取平均值。最后大家被带到了地图中心的一个公共厕所门口。总结一下非概率的方法有的在翻书检索有的在算平均数回归而基于概率分布的采样离想象生成更接近。现实是不确定的输入「一只狗」对应的不是一张图而是一亿张可能的图。这一亿张图构成了那个神秘的 数据分布。只有拥抱概率模型才能承认这些图都是对的我只要随机挑一张采样给你就好。拒绝平庸「采样」保证了多样性。这次采样到了金毛下次采样就是柯基。如果不使用概率分布模型往往会坍缩成单一的、死板的输出。填补空白学习分布意味着模型不是在死记硬背图片而是在学习「像素之间如何组合才是合理的」。所以哪怕它没见过「中国男足勇夺世界杯」这种科幻场面它也能根据学到的概率规律中国人长这样大力神杯长那样庆祝动作通常是这样无中生有地捏造出一个合理的新样本。二、图像和文本生成的核心区别好了现在我们认可了「生成即采样」是一个好的抽象现在我们来看最初的问题为什么文本和图像生成的技术路线在早期看上去差别这么大呢你可能会猜测大概是搞 NLP 和搞 CV 的是两波人的原因吧。嗯……也不能说完全没有这个因素但不本质。跨圈抄作业在这个时代太稀松平常了不算什么核心障碍。区别 1离散 vs 连续文本和图像的第一个差异在于「离散」与「连续」的不同。当我们谈论 ChatGPT 生成文本时我们实际上是在做选择题。就好比你有一本超级字典Vocabulary里面有 5 万个常用的词实际上是「子词」技术上叫 token。每一个词都有一个固定的编号ID 100 是「猫」ID 101 是」桌子「……当 LLM 想要生成一句话时它面临的局面是它必须、且只能从这 5 万个 ID 里选一个。这就是「离散」的含义非黑即白你要么选 ID 100要么选 ID 101。你不能选 ID 100.5。中间态无意义在数学上100 和 101 挨得很近但在语义上「猫」和「桌子」八竿子打不着。你无法找到一个「半猫半桌子」的词。而数字图像是由像素组成的。一个像素点的颜色比如 RGB 值通常是用数字来表示的。虽然在计算机存储时通常是 0-255 的整数也就是说本质上它也是离散的但在数学处理时它们被视为连续的浮点数。这就好比你在调色盘上混色你可以有纯红色1.0, 0.0, 0.0你可以加一点点白色同时增加绿色和蓝色通道变成浅红1.0, 0.1, 0.1你可以再加一点点白色变成更浅的粉红1.0, 0.11, 0.11。这就是连续的含义中间态是有意义的。你可以非常丝滑地从一张图「渐变」到另一张图中间不会出现断层。PS请再次注意像素存储在最底层仍然是「离散」的但我们之所以把它当成「连续」来看待是因为在这种表征方法中「中间态」是有意义的这是和文本那种基于「字典」的表征方法最本质的区别。为什么这个区别很重要因为它直接决定了你能不能定义「往前走一小步」这件事。在图像这种连续空间中「一步」是一个非常自然、非常温和的概念。更重要的是这些中间态依然是「合法」的图像。哪怕它们不好看、不清晰但它们仍然是一张张可以被网络处理、被人理解的图片。扩散模型Diffusion正是利用了这一点它通过计算梯度在这个连续的空间里一点一点地把噪点「推」向清晰的图像。而文本的离散空间里你无法定义一个「连续、平滑、处处可微」的生成路径。而没有这样的路径扩散模型赖以生存的那整套数学语言就失去了落脚点。在机器学习领域我们习惯把可平滑优化、可微的表示或过程叫做「软」Soft的把非此即彼、不可微的决策称为「硬」Hard的。你可能会问既然 token 是「硬」的那梯度从哪里来LLM 这种模型怎么训练如果你能问出这个问题说明你对深度学习有不错的直觉。答案是「硬」只发生在「最终选择」的那一瞬间训练阶段几乎完全是「软」的。模型并不是直接输出一个 token ID而是输出一个对整个词表的概率分布。这个分布是连续的、可微的。也就是说LLM 的庞大身躯中绝大部分其实都是在「连续空间」里做计算模型在训练时比对的是它预测的「概率分布」和真实词的「概率分布」之间的差异即交叉熵损失这个过程全程是可导的。最后的这层在机器学习里也叫做「分类头」。只有到了推理阶段通常也叫采样或者解码才做一个「掷骰子」一样的「离散」操作把这个「软」的分布变成一个「硬」的 token。区别 2顺序结构 vs 整体结构如果说「离散 vs 连续」决定了能不能定义平滑的生成路径那文本和图像的第二个关键差异则决定了生成这件事是所有元素「一个个地来」还是「一起改」。文本是一种高度顺序化的对象。一句话天然就有从左到右的结构第一个词出现之后第二个词才有意义前半句话没说完后半句根本无从谈起。这意味着在文本生成中不断根据上下文去「预测下一个词」是一个很符合直觉的任务定义。这就是 LLM 所谓的自回归Autoregressive建模。在每一步从词表中选一个最合适的答案。把「全局生成」变成了「局部选择」。而图像的结构则不同一张图像并没有一个「天然正确」的生成顺序。你可以先画轮廓也可以先涂背景你可以从左上角开始也可以从中间开始。向 LLM 那样自回归式地按顺序一个一个地预测像素不是不行而是看上去没有必要而且太慢了。对于图像生成而言你大可以对整张图进行并行建模在全局尺度上逐步修正把「生成」看作一个整体状态不断演化的过程。这正是扩散模型所采用的视角。从机器学习的角度看这种由数据形态差异所导致的架构选择本质上就是一种归纳偏置Inductive Bias。LLM 的自回归结构隐含着对语言「顺序生成、条件依赖」的假设扩散模型的连续演化过程则隐含着对图像「平滑变形、整体协调」的假设。这些偏置并非孰优孰劣而是对各自数据结构最自然的回应。当模型的归纳偏置与数据的内在结构高度匹配时学习就会变得高效而稳定反之则往往事倍功半。LLM 与 Diffusion 的架构差异本质上就是对不同数据结构所施加的不同归纳偏置。三、LLM 与 Diffusion 的融合到了这里我想你应该对「文本和图像生成为什么不用同一套技术」有了一个初步的认识。但要注意的是这不是「对不对」的问题而是只是「合不合适」的问题。LLM 擅长离散、顺序、语义结构Diffusion 擅长连续、并行、全局一致性理论上我们也可以用 Diffusion 的思想来生成文本用自回归的方式生成图像。融合这两种范式也正是业内很多人孜孜不倦进行探索的方向。这超出了我们这个系列教程的范畴为了不向读者增加额外的认知负担我们仅仅简要提及一下主要的思路作为一个拓展知识点选择性了解图像「离散化」将图片切块并转化为 token 序列应用 LLM 自回归范式中的研究成果Diffusion LM文字本身是离散的但词向量Embeddings) 是连续的可以在后者上做扩散再在字典里找最接近的 token。DiT (Diffusion Transformers)简单来说就是把扩散模型里负责「预测噪声」的那个大脑通常是 U-Net换成了和 ChatGPT 一样的 Transformer 架构。Sora 和 Stable Diffusion 3 用的就是这个技术。它证明了 Transformer 不仅能做文本接龙也能处理图像的去噪过程。总结核心知识点生成即采样生成式 AI 的本质是从概率分布中采样以此保证结果的多样性避免确定性拟合带来的「平庸平均值」。离散 vs 连续文本是离散的 Token无中间态图像是连续的数值可微分这使得图像能利用梯度进行平滑扩散而文本则难以为之。顺序 vs 全局文本是线性的时间序列适合 LLM 自回归预测图像是二维的空间结构适合 Diffusion 全局并行修正。归纳偏置LLM 和 Diffusion 技术路线的差异本质上是因为模型架构必须顺应数据文本 vs 图像的内在结构。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】