如何建设一个优秀的电商网站肇庆企业建站模板
2026/2/18 17:13:22 网站建设 项目流程
如何建设一个优秀的电商网站,肇庆企业建站模板,金华网站建设系统,做一款app要多少钱今天带大家全流程体验一下如何搭建一个基于本地部署“对话大模型 向量大模型”的 RAG 知识库问答系统。本地大模型使用的是 Gemma-3-1b#xff0c;向量模型使用 Qwen3-Embedding-0.6B。 全程一共分三大步#xff0c;我们开始。 本地大模型部署 因为参数越多的大模型消耗的…今天带大家全流程体验一下如何搭建一个基于本地部署“对话大模型 向量大模型”的 RAG 知识库问答系统。本地大模型使用的是Gemma-3-1b向量模型使用Qwen3-Embedding-0.6B。全程一共分三大步我们开始。本地大模型部署因为参数越多的大模型消耗的资源越大所以需要先对 Mac 做一个资源评估。这里我使用Apple Silicon即现有市场上已推出的 M1、M2、M3、M4 系列的 Mac 作为示例。Mac 本地部署资源评估在 MacApple Silicon上部署本地大模型时计算内存需求的核心在于理解统一内存Unified Memory架构。与 PC 的显卡VRAM和内存RAM分离不同Mac 的 GPU 直接使用系统内存。以下是 Gemini 给出的详细计算方法、配置建议和典型示例一、 核心计算公式计算大模型占用内存的基本公式为Memory(GB)≈P×Q/8×1.2•(Parameters)模型的参数量单位B即十亿。•(Quantization)量化位数。常见的量化位数包括•16-bit (FP16/BF16)原始精度无损每个参数占 2 字节Bytes。•8-bit (INT8)中等精度每个参数占 1 字节。•4-bit (Q4_K_M)本地部署主流选择每个参数约占 0.5 到 0.6 字节。•(Overhead)约 20% 的额外开销。用于系统预留、KV Cache上下文缓存以及模型运行时的中间激活值。二、 Mac 配置选择逻辑由于 macOS 系统本身和日常应用如浏览器会占用 4GB-8GB 内存计算时需扣除这部分。内存容量建议部署的最大模型规模典型推荐量化8GB1.5B - 3BQ4_K_M / Q8_016GB7B - 8BQ4_K_M32GB14B - 20BQ4_K_M / Q5_K_M64GB32B - 34B (高精度) / 70B (极致压缩)Q4_K_M96GB70B 以上Q4_K_M 或更高三、 具体举例计算示例 1Llama 3 - 8B主流均衡型如果使用常用的 4-bit 量化•参数量 (): 8•位宽 (): 4•计算:•要求: 8GB 内存的 Mac 可以运行但剩余空间不多16GB 内存运行非常流畅。示例 2DeepSeek-V3/R1 - 70B高性能型如果使用 4-bit 量化Q4_K_M•参数量 (): 70•位宽 (): 4•计算:•要求: 至少需要64GB 统一内存的 Mac如 M2/M3 Max 或 Ultra。虽然 48GB 勉强能加载但系统剩余内存不足会导致严重的交换频率大幅降低速度。常用模型下载渠道只是为了体验下全流程所以没必要搞一个参数量很大的模型浪费我们宝贵的 Mac 资源我们用Gemma-3-1b来体验一下。首先分别看下不同渠道下的模型信息。• Hugging Face https://huggingface.co/models可以看到模型信息标注的是 BF16 的原始精度按照上面 Gemini 给的资源评估公式每个参数对应 2 个字节大约 2GB 的模型大小。• 魔搭社区 https://modelscope.cn/models可以看到魔搭上的这个 Gemma-3-1b 的 GGUF 格式的模型所对应的原始模型就是上面 Hugging Face 的那个下面提供了很多不同级别量化压缩版本的 GGUF 格式模型。• Ollama https://ollama.com/search可以看到 Ollama 的模型是经过了 Q4_K_M 的量化压缩大小 815MB。OK接下来选择通过 Ollama 命令行去安装。通过 Ollama 安装Gemma 3:1bollama run gemma3:1b 安装好后打开 Ollama 客户端可以看到后面的模型下载提示就没有了。 ![](http://cdn.zhipoai.cn/29affdda.jpg) OK到这里我们的本地对话大模型 **Gemma 3** 就部署好了。 本地向量模型部署 接下来通过一种更进阶一些的方式通过先从魔搭社区下载原始向量模型到本地然后再对原始模型进行量化压缩成 GGUF 格式最终导入 Ollama 中。 通过魔搭社区本地部署 **Qwen3-Embedding-0.6B** ----------------------------------- 为了方便下一步演示如何将原始模型转换为 GGUF 格式这一步选择安装原始的。 ![](http://cdn.zhipoai.cn/4432d987.jpg)plaintext # 安装 ModelScope这里我使用的清华源下载速度可以快一点pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple# 下载模型到指定文件夹modelscope download --model Qwen/Qwen3-Embedding-0.6B --local_dir ~/local_llm/Qwen/Qwen3-Embedding-0.6B将原始模型转 GGUF 格式通过以上命令部署好原始的向量模型之后这一步需要把原始的模型通过llama.cpp进行一定程度的量化压缩变成 GGUF 格式。关于 GGUF 格式可以理解为专为个人电脑或者开发者为了易于本地部署而进行一定量化压缩后特别省资源的一种格式。首先将 llama.cpp 从 GitHub 克隆到本地并进行相应的本地依赖安装建议部署本地 Python 虚拟环境防止依赖冲突。git clone https://github.com/ggerganov/llama.cpp.gitcd llama.cpp pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple接下来可以进入 llama.cpp 根目录执行以下脚本即可。# 对将原始模型采用Q8_0 (8-bit)量化等级进行压缩python convert_hf_to_gguf.py ~/local_llm/Qwen/Qwen3-Embedding-0.6B --outtype q8_0 --verbose --outfile Qwen3-Embedding-0.6B.gguf# 当然也可以不进行压缩无损格式压缩python convert_hf_to_gguf.py ~/local_llm/Qwen/Qwen3-Embedding-0.6B --outtype f16 --verbose --outfile Qwen3-Embedding-0.6B.gguf ![](http://cdn.zhipoai.cn/570ace22.jpg) 可以看到终端右侧是原始向量模型的大小统计左侧采用的 Q8\_0 (8-bit) 量化等级进行压缩模型大小从 1.1G 压缩到了 633.2MB。 将 GGUF 模型导入 Ollama 中 -------------------- 下一步就可以导入到 Ollama 中使用了。 首先在刚刚量化压缩好的 GGUF 格式的大模型同目录下创建一个模型对应的 Modelfile 文件然后通过 Ollama 终端就可以导入了。 plaintext vim Qwen3-Embedding-0.6B.modelfile## 编辑内容如下from ~/ai/llama.cpp/Qwen3-Embedding-0.6B.gguf plaintext ollama create Qwen3-Embedding-0.6B -f Qwen3-Embedding-0.6B.modelfile本地向量数据库搭建还有关键的一步因为向量模型需要对原始语料进行索引切片存到数据库中这里本地向量数据库服务使用开源版本的 Milvus。pip install -U milvus-lite想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询