2026/1/8 15:18:51
网站建设
项目流程
为什么网站生成后不显示,网站建设网站规划书,大庆市萨尔图区建设局网站,wordpress短视频模版你跟大语言模型#xff08;如 ChatGPT 或 豆包#xff09; 说#xff1a;“我明天要去海边玩#xff0c;给我推荐点装备”#xff0c;它能立刻回复“防晒霜、沙滩鞋、遮阳帽”#xff0c;甚至还“贴心地”提醒你记得带件薄外套防海风——这时候你可能会想#xff1a;它是…你跟大语言模型如 ChatGPT 或 豆包 说“我明天要去海边玩给我推荐点装备”它能立刻回复“防晒霜、沙滩鞋、遮阳帽”甚至还“贴心地”提醒你记得带件薄外套防海风——这时候你可能会想它是不是真的“知道”去海边需要这些其实答案很简单它啥也 “不知道”。LLM大语言模型就像是一个玩乐高的高手所有回答都是靠 “模仿人类语言规律” 将词语像积木一样一块块拼出来的。一位超级博学的朋友想象你有一位朋友——他读过全世界的的书以及互联网的所有文字但脑子不是肉做的而是一堆数字“乐高”你问一句他就拼一句拼得比谁都顺。这位朋友就是大语言模型LLM。今天我们撕开它的神秘面纱看看它到底是怎么“拼”的。一个啥也“不知道”的乐高高手这么一位超级博学的朋友为何我们上面说它啥也“不知道”呢接下来我们以一个示例来说明 LLM 是如何通过高超的“乐高手法”瞒天过海让你觉得它啥都知道的。假设我们以“AI知行记是一个非常”为输入向大模型发起提问下图展示了从发起提问到输出文本的完整流程。我们一步步来讲。注本示例仅为展示大模型的问答工作流程与实际输出不相符除非做专门的针对性训练~第一步把文字拆成积木——分词化大语言模型很“笨”它没法一次理解你跟它说的那一连串话语所以需要先将其拆分专业术语叫 Tokenization分词化分词Token是大模型处理文本的基本单元通常是单个单词或汉字、词语、词组或者符号等取决于分词的策略一般大模型收费也是基于这个 Token 来的。例如“AI知行记是一个非常”会被拆成一块块积木TokenAI知行记 | 是 | 一个 | 非常注 实际中“AI知行记”不会凑一起这里仅作为示范第二步给积木定个“坐标”—— 向量化因为计算机只能理解数字无法直接理解 Token 的含义。因此需要将 Token 进行数字化转换转化为向量使其可以被计算机所理解。Token 向量化会将每个 Token 转化为固定维度的向量就像给每个积木确定一个“坐标”专业术语叫 Embedding。如前面拆分的 Token 被向量化后可能形成类似如下向量Token向量AI知行记[0.02,0.34,0.86…]是[0.72,0.14,0.31…]一个[0.23,0.51,0.03…]非常[0.49,0.22,0.27…]Embedding 具体怎么工作的这里简单阐述下。LLM 会建立一个 Token - Token ID 的映射表这个映射表是分词器对海量语料进行分词统计所有 Token 的出现频率筛选高频 Token 构建固定大小的词汇表比如 GPT-3 词汇表有 17.5 万 Token。再给词汇表里每个 Token 分配唯一的整数 ID即 Token ID这个映射表是固定的输入文本被分词后将会到这个映射表中找对应的 Token ID得到一个“Token ID 序列”。LLM 中有一个嵌入层 Embedding Layer本质上可以理解为一个维度是 [映射表大小*核心参数数] 的二维矩阵每一行对应一个 Token 的向量可简单理解 Token ID 就是向量的行号它会被随机初始化并根据“语义关联”性不断训练调整每个 Token 的向量使关联性大的 Token 向量之间距离越小关联性小的 Token 向量之间距离越大从这个嵌入层查找到对应 Token 的向量后如上表所示LLM还会对其进行优化与增强如补充各 Token 的位置编码、类型编码以适配后续的注意力机制定位核心词与 Transformer 计算。第三步给积木找“邻居”—— 大模型推理大模型通过大量已有数据的训练已经掌握了人类说话的规律简单理解就是当某个/些词语Token出现时接下来大概率会出现某个词语Token这就好比是大模型在其内部织了一张“词语社交网”——将两个词在文本里一起出现的次数比作“人与人的交往频率”“海边” 和 “防晒霜” 每天都见面一起出现10万次就是 “亲密好友”“海边”和“羽绒服”一年只见一次只出现10次就是 “点头之交”“海边”和“火锅”从没见过就是 “陌生路人”。要找出接下来大概率会出现哪个 Token就存在一个问题前面我们通过分词已经拆分了多个 Token 我们到底以哪个 Token 为基准去找它的“亲密好友”。注意力机制是帮 LLM“聚焦重点”的工具可以把注意力机制想象成“AI 的专属放大镜”。当你输入问题后这只放大镜会先找到问题里的“主角”比如“海边”然后对着“词语社交网”放大查看——只盯着和主角“交情深”的词语亲密好友对“交情浅”的点头之交扫一眼就过对“不认识”的陌生路人直接忽略。这个过程中LLM 会给每个词语打一个“关注度分数”通过 Token 向量运算获得亲密好友得100分点头之交得20分陌生路人得0分LLM 再通过“归一化”大模型 Softmax 层干的活将得分映射到 0~1总和为 1变成标准的概率分布最后优先用概率高的词语来组合答案。就像拼积木时我们把最有可能与前面已经拼凑好的模型匹配的候选积木选出来。回到我们的示例经过大模型的推理运算发现最有可能出现在“AI知行记是一个非常”后面的 Token 及概率分布为候选Token概率不错的50%有意思的25%专业的20%无聊的5%第四步拼接积木 —— 输出Token第三步我们已经选出了候选 Token接下来到底选择哪个输出根据大模型选择的策略不同会有不同的表现。贪心搜索就是直接选概率最高的 Token比如概率 0.5 的 “不错的”这是最朴素的方式优点是速度快、稳定缺点是容易输出 “平淡话术”就是每次问回答都是一样的缺乏多样性随机采样就是按概率分布抽比如“不错的” 0.5、“无聊的”0.05那么大概率会抽到 “不错的”小概率抽到 “无聊的”优点是多样缺点是可能抽到小概率的 “奇怪 Token”Top-K 采样只从概率最高的 K 个 Token 里采样比如 K50排除低概率的 “奇怪 Token”兼顾多样性和合理性Top-P核采样只从累计概率达到 P比如 0.9的 Token 集合里采样集合大小不固定概率高的 Token 少则集合小多则集合大比 Top-K 更灵活是目前的主流。大模型一般会根据候选 Token 的概率来进行随机挑选所以你会发现即使问题完全相同每次的回答都略有不同目前普遍是通过 temperature 和 top_p 这两个参数来控制生成内容的随机性假若某天你刚好看到了这两个参数只要记住值越低确定性越高值越高随机性越高即可。示例中在“AI知行记是一个非常的后面选择了 Token “不错的”嗯 不错。接下来大模型会将选中的 Token 拼接到原上下文的末尾比如 “AI知行记是一个非常”→“AI知行记是一个非常不错的”然后重复第三步、第四步计算下一个 Token比如“公众号”直到触发终止符即 End Of Sentence表示句子结束或者输出 Token 数达到了阈值停止输出。就像不断地拼接积木直到把模型拼完。这个用专业术语叫“自回归”Auto-Regressive有点像玩贪吃蛇的游戏是吧。第五步完成积木拼接 —— 输出文本通过重复第三步、第四步大模型完成了所有内容的输出。大模型可以选择最后一次性将所有生成的内容输出也可以使用大模型的流式输出能力即预测一些 Token 就立即进行返回在聊天界面上就像打字回复一样提升体验感。示例中我们得到了最终输出——“AI知行记是一个非常不错的公众号”。欢迎大家关注至此乐高高手也完成了它的拼接。“乐高高手”的底层逻辑大语言模型的底层逻辑通俗来说可用 3 句话总结它不“理解”语言只认“好友关系”—— 就像你知道 “闺蜜该一起逛街”“朋友常一起吹牛”不用懂“为什么”只知道“常这么做”它不“思考”只“按好友名单接龙”—— 回答是从第一个字猜到最后一个字靠的是“词语社交网”它的“聪明”全来自“人类的文字交情”—— 你问的问题越常见比如“推荐海边装备”相关词语的“交情越深”它答得越准越冷门比如“小众科幻小说推荐”词语间“交情越浅”越容易出错。它的所有“智慧”其实都是人类语言“社交关系”的缩影如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】