公司网站建设设计公司网站安装环境配置
2026/4/17 2:34:26 网站建设 项目流程
公司网站建设设计公司,网站安装环境配置,陕西seo公司,简述常见的软件开发模型本文详解RAG系统数据准备全流程#xff0c;涵盖知识资产盘点、数据清洗、文本分块、元数据提取、向量化索引及质量评估六大环节。强调数据质量对RAG系统的重要性#xff0c;提供不同规模企业的技术方案#xff0c;提出先保召回率再谈精确率、问题多在数据不在模型等关键经验…本文详解RAG系统数据准备全流程涵盖知识资产盘点、数据清洗、文本分块、元数据提取、向量化索引及质量评估六大环节。强调数据质量对RAG系统的重要性提供不同规模企业的技术方案提出先保召回率再谈精确率、问题多在数据不在模型等关键经验并建立持续迭代反馈闭环确保系统效果。数据准备阶段是架构落地的起点,因为:RAG系统的核心就是知识库,没有高质量的知识数据,后续检索和生成都无从谈起数据准备过程中发现架构设计的问题时,可以及时调整为后续的检索、召回、生成等模块提供测试数据知识数据准备 把“企业资料” → 变成“可被检索、可被引用、可被追责”的知识资产不是“把文件随便丢进去”是重构一套企业级知识工程。一、知识资产盘点Data Collection知识来源有哪些产品文档 / 技术手册内部 WikiConfluence / NotionWord / PDF / PPT邮件 / 工单 / FAQ代码 / API 文档 / DB schema谁是权威来源是否存在多份互相矛盾的文档哪份才是“最终解释权”是否允许被 AI 回答法务 / 合规 / 隐私文档是否需要脱敏 / 屏蔽 / 分级授权这一阶段产出的是数据源清单权威性标注访问级别规则二、原始数据清洗Data Cleaning1️⃣ 删除“对人有用、对模型没用”的东西比如页眉页脚、目录、版权声明“本页故意留白”重复段落UI 导航文本等对于表格、图片等非文本内容,需要考虑是否转换或提取其中的信息。2️⃣ 转换为结构化数据比如{ title: 退款政策, section: 退款条件, content: ..., source: policy_v3.pdf, page: 12 }结构 未来可解释性 可引用性 可审计性目前使用AI生成清洗脚本可以非常方便的进行数据清洗。三、文本分块Chunking不会切分 项目失败切分规则按“语义边界”标题小节段落列表问答对API 参数块等实战技巧:Markdown文档:按##标题切分效果好PDF合同:按条款编号切分API文档:按endpoint切分代码:按function/class切分可以让ai按照规则生成切分代码或者将文档丢给LLM切分。四、元数据提取与数据增强Enrichment4.1 元数据提取Metadata Extraction目的Filtering时间 / 部门 / 产品Hybrid Search关键词 向量为后续 Rerank 提供支持元数据类型类型来源说明时间文件名 / 正文 / 页眉YYYY-MM-DD 或 年月作者页眉 / 签批 / 邮件找不到就空部门固定词表匹配权限控制简单点可以直接根据部门关键词LLM控制数量实体LLM 正则项目名 / 产品名source文件名/网址回答时引用文档权限标签业务需求ABAC / RBAC文档版本文件名 / 正文 / 页眉灰度发布Metadata 示例{ doc_id: policy_hr_2025, chunk_id: policy_hr_2025_09, date: 2025-12-01, department: 人力资源部, keywords: [绩效考核, KPI, 晋升], entities: [绩效管理系统] }可以让LLM 帮忙提取Metadata的 Prompt你是企业知识治理专家。 请从以下文本中提取元数据并严格按 JSON 输出。 字段说明 - date: 文本中明确出现的时间ISO 格式没有则为 null - author: 作者或签发人 - department: 所属部门若无法判断则为 null - keywords: 5 个以内关键词 - entities: 文中提到的产品名 / 项目名 / 系统名 文本 {{chunk_text}}4.2 假设性问题生成Doc2Query可选建议做法每个 chunk 生成3–5 个用户可能会问的问题用“问题向量”建索引原文可选只存 metadata sourcePrompt你是企业知识库的用户。 请基于以下内容生成 3-5 个真实用户可能提出的问题。 要求 - 用自然语言 - 不要复述原文 - 覆盖“怎么做 / 是什么 / 条件 / 限制” 内容 {{chunk_text}}4.3 摘要生成Hierarchical Summary可选适用中大型 RAG用途粗排先看哪篇文档父子文档结构Parent–Child RAG减少长文 token 压力两级摘要层级内容面向谁用来干什么文档级200–300 字检索系统 / 粗排筛选文档章节级1–2 句话Parent–Child RAG定位“该用哪一组 chunk”Prompt请将以下文档总结为不超过 300 字的摘要 重点说明 - 适用对象 - 核心规则 - 特殊限制 文档 {{full_text}}文档级摘要1.放哪✅建议放入 Elasticsearch{ doc_id: policy_hr_2025, title: 员工绩效管理制度, summary: 本制度适用于公司全体员工规定了年度绩效考核的评估周期、评分等级及结果应用方式。绩效结果分为A/B/C/D四级连续两年C级以下将触发岗位调整或劳动关系处理。特殊岗位考核标准另行规定。, department: 人力资源部, version: 2025 }2.怎么用✅用于 粗排 / 文档级筛选User Query ↓ BM25 / Vector ↓ 先命中 10~20 篇文档基于 summary / title ↓ 只在这些文档的 chunk 里做细粒度检索重要提醒❌ 不要把摘要直接喂给 LLM 当依据❌ 不要让模型“基于摘要回答问题”章节级摘要Parent–Child RAG 怎么用可选中的可选1️⃣ 数据结构文档 ├─ 第1章summary │ ├─ chunk_1 │ ├─ chunk_2 ├─ 第2章summary │ ├─ chunk_3 │ ├─ chunk_42️⃣ 章节级摘要生成规则每个章节 1–2 句话不超过 50 字描述“这一章主要解决什么问题3️⃣ 章节摘要存哪建议作为 Parent Document不一定向量化{ parent_id: policy_hr_2025_ch2, summary: 本章规定绩效考核的评分标准及各等级对应的管理措施。, child_chunks: [ chunk_03, chunk_04, chunk_05 ] }4️⃣ 检索时怎么用Parent–Child 流程User Query ↓ 向量 / BM25 命中 Parent Summary章节级 ↓ 只取该 Parent 下的 chunk ↓ 再做 chunk 级向量检索 / rerank判断是否需要用摘要当你满足任意一条记得加上chunk 5k文档 300Hybrid Recall 之后噪音仍高Reranker 前的候选 100 仍很乱五、向量化与索引Embedding IndexingEmbedding 模型选择(推荐这两个)BGE-M3qwen3 embedding 0.6B/4B/8BRerank 模型可选但推荐bge-reranker-large/bge-reranker-v2-m3Qwen3-Reranker 0.6B/4B/8Bjina-reranker-v3这两种模型的作用与区别向量召回在做什么“大概是这个话题”Reranker 在做什么“这一段是不是真的能回答这个问题”这是两个完全不同的任务。两种模型可以分阶段实施阶段一✅ Hybrid RecallVector BM25❌ 先不加 Reranker 目标验证数据 Enrichment 是否正确阶段二一周后✅ 加 RerankerTop50 → Rerank → Top5 看看效果是否会提升很多场景化示例场景 AMVP / 文档不多 只对 Chunk 向量化目标系统先跑起来验证清洗是否干净chunk 是否合理引用链路是否正确向量库 Schema示例{ id: docA_chunk_003, vector: [ ... ], metadata: { doc_id: docA, chunk_index: 3, source: 员工绩效制度.pdf, page: 5 } }metadata 只保留“能反查原文”的信息检索流程User Query ↓ Query Embedding ↓ Vector Search (TopK3~5) ↓ 直接送 LLM场景 B中小型知识库开始“不太准了” Chunk Doc2Query问题向量目标解决下列问题“好像找得到但不太准”“有些问题答非所问”“换种问法就不行了”向量库 SchemaQuestion 向量{ id: q_879123, vector: [ ... ], metadata: { type: question, source_chunk: docA_chunk_003, doc_id: docA } }Chunk 向量{ id: docA_chunk_003, vector: [ ... ], metadata: { type: chunk, doc_id: docA } }必须能从 Question 精确回溯 Chunk检索流程User Query ↓ Query Embedding ↓ Vector Search ├─ Question vectors (TopK20) ├─ Chunk vectors (TopK20) ↓ Merge按 source_chunk 去重 ↓ Top 5~8 Chunk → LLM场景 C大型知识库 / 问法杂 / 制度多 Chunk Question Hybrid Reranker目标稳定 Recall控制噪音Embedding Index 策略向量索引存ChunkQuestion稀疏索引索引字段chunk_textkeywordsentitiesMetadata{ doc_id: policy_hr_2025, department: 人力资源部, version: 2025, effective_date: 2025-12-01, type: chunk }检索流程code-snippet__jsUser Query↓Query Rewrite可选↓Hybrid Recall├─ Vector (Question) Top 50├─ Vector (Chunk) Top 50├─ BM25 Top 50↓Merge Dedupchunk_id↓RerankerTop 10↓Top 3~5 Chunk↓LLM强引用| 场景 | 向量对象 | 索引类型 | 是否 Rerank | | --- | --- | --- | --- | | A | Chunk | Vector | ❌ | | B | Chunk Question | Vector | ⚠️ 可选 | | C | Chunk Question | Vector BM25 | ✅ 必须 | 六、质量评估与持续迭代 (QA Evaluation) 第一步构建 Golden Dataset ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- #### ✅ 来源一真实用户问题 * 工单 * 客服记录 * 内部员工常问 命中率最高最有价值 --- #### ✅ 来源二制度/文档的“关键条款” 比如 * “不合格会怎样” * “适用范围是什么” * “生效时间” 这些**必须能答对** --- #### ⚠️ 来源三边界案例和困难样本 * 用于覆盖冷门场景 第二步自动化评估RAGAS / TruLens 目标快速定位问题在“哪一层” **检索质量指标** ****1.Context Recall上下文召回率**** 定义检索到的 chunk是否包含回答所需的信息。 * 是 → Recall 高 * 否 → Recall 低 **Recall目标值 0.85** ### Recall 低常见原因 | 原因 | 指向 | | --- | --- | | 没命中任何相关 chunk | 切片 / 向量 | | 命中但信息不完整 | chunk 太小 | | 换个问法就不行 | Doc2Query 缺失 | **2.Context Precision上下文精确率** ### 定义检索到的有多少是有用的信息。 ### 判断逻辑 plaintext 有用的信息 / 检索到的总信息高 → 干净低 → 噪音多Precision目标值 0.80Precision 低常见原因原因处理方式TopK 参数设置过大减小chunk 切得太碎调整 chunk没做过滤metadata filtering没 rerank增加Reranker生成质量指标******3.Faithfulness忠实度定义回答结果是否能在 Context 里找到依据目标值 0.904.Answer Relevance答案相关性定义回答结果是否切题目标值 0.75**********第三步人工抽检抽检比例每次抽10–20 条 Bad Case重点关注Recall 失败的用户觉得“答非所问”的# Bad Case诊断模板 ## 案例信息 - **问题**用户的原始问题 - **检索结果**返回了哪些chunks标题前50字 - **生成答案**系统的回答 - **用户反馈**点赞/点踩/追问 ## 问题诊断 ### 检索问题 - [ ] 相关chunk未被召回召回问题 - [ ] 相关chunk排名太低排序问题 - [ ] 检索到太多无关chunk精确度问题 ### 数据问题 - [ ] 文档切分不当chunk边界问题 - [ ] OCR识别错误 - [ ] 关键信息缺失/过时 - [ ] 文档结构混乱 ### 生成问题 - [ ] 答非所问 - [ ] 信息幻觉 - [ ] 逻辑混乱 - [ ] 格式不友好 ## 根因分析 【详细描述问题的根因】 ## 改进方案 【具体的优化措施责任人预期效果】 ## 优先级 - [ ] P0 - 影响严重立即修复 - [ ] P1 - 影响较大本周修复 - [ ] P2 - 影响一般下次迭代第四步形成“反馈闭环”建立「问题 → 处理方式」对照问题类型处理方式Recall 低增加 Doc2QueryPrecision 低增加 filtering / rerank答非所问调整 chunk来源错误修改metadata一次只改一个变量定位问题原因。形成持续迭代的完整流程准备 50 条 Golden Dataset跑完整 RAG 流程用 RAGAS 算 Recall / Precision筛选 Recall 阈值的 Case人工分析 10 条 Bad Case定位责任层切片 / 向量 / rerank修改一项回到第 2 步最后说三条经验1️⃣先保 Recall再谈 Precision2️⃣ 绝大多数问题在数据不在模型3️⃣没有 Golden Dataset就没有“优化”只有“玄学”AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询