网站设计基础语言不包括这些内容做企业网站的费用
2026/2/22 6:39:45 网站建设 项目流程
网站设计基础语言不包括这些内容,做企业网站的费用,青浦门户网站,wordpress怎么做app本文解析美团大模型面试题中出现的KV-Cache技术#xff0c;详细解释了在大模型推理过程中使用KV-Cache的原因和工作原理。文章介绍了大模型推理的Prefill和Decode两个阶段#xff0c;说明KV-Cache如何通过缓存历史信息来减少重复计算#xff0c;提高推理效率。通过今天…本文解析美团大模型面试题中出现的KV-Cache技术详细解释了在大模型推理过程中使用KV-Cache的原因和工作原理。文章介绍了大模型推理的Prefill和Decode两个阶段说明KV-Cache如何通过缓存历史信息来减少重复计算提高推理效率。通过今天吃饭了吗的实例直观展示了KV-Cache技术如何用空间换时间优化大模型推理性能帮助求职者应对面试中的技术问题。一位同学去美团面试大模型岗位面试完之后发了个帖子反馈就三个字已老实。看来妥妥的被面试折磨到了我们来看一下美团大模型的面试题到底如何排除掉最后一个手写代码的实操题之外上面一共给了11个面试的问题。这11个问题涵盖的还是比较全面的包含了基础类、模型类、算法类和工程类的问题。比如基础类的问题有 BF16/FP16/FP32 的对比这个其实考察的是候选人对于模型推理 or 训练是的数据的理解主要从精度量化和显存占用两方面回答即可。模型类的问题主要集中在 DeepSeek-R1 这个模型。算法类的问题则涉及到了 Rope 和 KV-Cache、Adam 算法。最后工程性的问题则主要集中在显存占用方面重点考察的也是候选人对大模型推理 or 训练过程的整体理解。一句话考察的很全面的。怪不得同学直呼已老实。这篇文章我们就以美团面试中出现的 KV-Cache 大模型的推理过程为例来详细解释一下——为什么在大模型的推理过程中需要使用 KV-Cache 技术为什么需要 KVCache?在你看完前面的位置编码后接下来就换一个视角从大模型的视角看以下 KVCache 缓存技术。乍一看这个技术好像很深奥又是 KV 又是缓存的。但是如果你结合大模型运行的原理和机制以及之前介绍的注意力机制的运算方法来了解会发现这个技术其实也很好理解。什么是 KVCache这里的 KV 指的是注意力机制中的 Key 和 Value。Cache 是计算机科学中的一个重要术语中文翻译为缓存。因此 KVCache 就是针对注意力机制中计算 Key 和 Value 时的一个缓存技术。还记得注意力机制是如何计算的吗下图展示了注意力机制的计算过程。在图中两个绿色方框标注的分别是计算注意力时的 K 矩阵和 V 矩阵。事实上在 Transoformer 中由于使用的是自注意力Q/K/V都是由相同的输入数据线性映射得到的通过多头注意力机制中的线性映射层得到在进一步阅读之前先来看一下大模型是如何完成文本翻译这种任务的推理的。大模型的推理过程首先目前主流的大模型采用的架构是 Decode-Only 架构也就是只使用了 Transformer 架构中的解码器部分并不使用编码器部分。在使用 Decoder-Only 架构的大模型进行推理时整个推理过程主要分为两个阶段一个是 Prefill 阶段一个是 Decode 的阶段。Prefill 和 Decode 过程我们先来看一下大模型是如何和你进行交互并且生成回答的在这个过程中哪些是 Prefill 阶段哪些是 Decode 阶段。当你和 GPT 这种模型进行对话时你会先输入你的问题对于大模型而言这个问题叫做prompt也就是提示词。大模型在接收到这个提示词之后便会执行推理过程。首先它会根据你输入的提示词来生成第一个回答的单词随后会根据输出的第一个回答的单词来不断的预测后一个回答的单词直到把需要回答的单词全部生成完这也是为什么这类对话任务又叫做文本生成任务的原因。因此你可以看到大模型在生成回答的时候是依据之前已生成的内容来选择下一个具有最大概率的单词作为输出的。可以说每生成一个单词都是一种基于概率的预测过程。而 Prefill 阶段指的是大模型接收到用户输入的问题后生成回答中的第一个单词的阶段。Decode 阶段则是大模型根据第一个字符进行后续预测的阶段如上图。这两个阶段有一个共通点就是大模型运行的过程是一样的不一样的是大模型接收到的输入不一样。以上是引入了 KVCache 优化技术之后的逻辑也是现在最主流的推理流程。在不引入 KVCache 的情况下大模型的每次预测都是基于 Prompt 进行的下一个单词的预测。举个例子假设你问大模型一句话“今天吃饭了吗”大模型最终回答你“我不需要吃饭不过谢谢你的关心你呢今天吃什么了”对大模型来说第一次的输入是“今天吃饭了吗”这句话模型的输出是回答中的第一个词也就是“我”。随后将得到的输出和输入加在一起得到 “今天吃饭了吗我” 作为新的 Prompt 输入给大模型然后大模型输出不”依次类推直到满足一定的条件比如输出字数超过了设置的限制或者输出了最后一个字符EOS, End of Sequence大模型则停止输出此时模型回答完毕。就像下面这样这个过程看着是不是比较蠢、比较笨重但事实上大模型和你对话的流程确实是这样。这个过程让你感觉到比较蠢比较笨重的地方我猜可能就是每个步骤输入给大模型的提示词都有大量的重复单词就像上图左侧输入那一列展示的那样。而且这样做会带来很多问题最严重的就是大模型的计算量会暴增而且每个步骤都需要重复计算相同的单词的尤其是在做注意力机制中的运算中。因此一个自然而然的想法就是能不能不在每个步骤中都重复计算上一个步骤已经计算过的单词新的步骤只计算新的输入就好了。这就是 KVCache。KVCache 就是把上一步骤已经计算过的单词找个地方缓存下来在下一步的时候直接拿来用并且把新的输入加到缓存好单词的末尾就可以了。如此一来有了 KVCache 之后大模型的推理过程就变成了下面的样子。上图中第二列的句子或token序列就是每个步骤运行时已经缓存的内容。有了缓存之后每个步骤只需要输入上一步骤预测的输出即可。这样一来大模型的计算只需要处理后两列的内容是不是比之前简洁很多这就是 KVCache 的作用。也正因如此步骤 1 被称为 Prefill 阶段步骤 2 及之后被称为 Decode 阶段。在了解了这个过程后我们接下来将这个过程和注意力机制中使用 Q/K/V 计算注意力的过程进行对应来进一步说明这个技术为什么叫做 KVCache而不是 QCache。上图中每一步的输入为上一步输出的预测单词这个输入便是 Query也就是注意力机制中使用到的 Q那在注意力机制中使用的 K 和 V 在哪里呢在注意力机制计算中尤其是 transformer 架构中的自注意力机制K 和 V 被认为是存储了所有历史信息的字典注意力机制的计算过程便是根据已发生的历史信息以及当前的输入 Query 来计算出下一个预测单词的概率。因此在 Prefill 阶段因为是第一次输入此时的 Q/K/V 都等于原始输入对应的词向量也就是说此时的 Q/K/V 都是“今天你吃饭了吗”。而在第一个 Decode 的过程中输入的 Q 为 Prefill 的输出“我”此时的 K 和 V 需要包含历史信息就变成了“今天你吃饭了吗”同理第二个 Decode 的过程中输入 Q 为“不”而此时的 K 和 V 则为“今天你吃饭了吗我”以此类推直到输出一个完整的句子。因为 K 和 V 是存储了历史信息的因此只需要多 K 和 V 做缓存Q 不需要这也是为什么这个技术叫做 KVCache 的原因。KVCache 的增长你可以看到在 Decode 的阶段每一步的输入和输出都是一个单词但是在计算注意力机制的过程中使用的 K 和 V 则包含历史信息可以说 K 和 V 的长度是随着输出的增长而不断增长的。相信你看到这里大概能明白为什么要使用 KVCache 了。主要的原因是在Decode 的阶段每预测一个新的输出计算注意力的过程中使用的 K 和 V 有绝大部分是历史信息而这些历史信息在上一步其实已经计算过了完全没有必要每生成一个新的单词重复进行相关的计算。这便是 KVCache 这个技术提出的背景其目的主要还是为了加速大模型在推理过程中的计算速度。在计算机科学中有一种性能优化的思想叫做“用空间换时间”KVCache 便是一种典型的牺牲了内存空间减少了程序的运行时间的方法。当当当当如果你看到了这里并且理解了上面对于 KVCache 提出的背景以及原理我相信你在面试中绝对可以对与 KVCache 有关的题目应对自如了。并且如果可以把这篇文章背下来拿个面试满分也不是没有可能得呀。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询