2026/3/29 19:52:48
网站建设
项目流程
中山顺的网站建设,wordpress301重定向,珠海杰作网站建设网络公司,软件定制一条龙文章分析了大模型在建筑设计专业领域回答问题时出现的错误#xff0c;指出存在信息陈旧、缺乏结构化知识、数据分布偏差和幻觉生成等问题。作者提出使用检索增强生成#xff08;RAG#xff09;技术作为解决方案#xff0c;详细介绍了文档准备、API设置、文档向量化、构建知…文章分析了大模型在建筑设计专业领域回答问题时出现的错误指出存在信息陈旧、缺乏结构化知识、数据分布偏差和幻觉生成等问题。作者提出使用检索增强生成RAG技术作为解决方案详细介绍了文档准备、API设置、文档向量化、构建知识库和搭建智能问答系统的完整流程。通过RAG技术将专业知识获取方式从手动翻阅升级为智能对话提高了专业问题回答的准确性。大模型在训练时是包含了海量的建筑设计规范文件的但是它在回答建筑设计专业问题时仍然会出较多错误。我向网页版Deepseek问了两个问题它的回答都是错的问无障碍厕所隔间的尺寸是多少Deepseek答依据《无障碍设计规范》GB50763-2012平面尺寸不应小于1.80m×1.50m规范要求实际在无障碍规范中无障碍厕所不应小于1.8m×1.0m在民用建筑统一标准中无障碍厕所隔间不应小于1.5m×2.0m隔间外开门时不应小于1.0m×1.8m。问单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少居住建筑洗手盆外沿至对面墙的净距不应小于多少Deepseek答其外沿至对面墙或障碍物的净距不应小于1.20m居中建筑中不应小于0.7m规范要求单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于1.25m居住建筑洗手盆外沿至对面墙的净距不应小于0.6m。通过以上两个问题反映了大模型在垂直领域中一些能力上的不足比如1信息陈旧与矛盾训练时用的规范并非最新版2缺乏深度结构化知识无法实现“章-节-条-款”定位3数据分布偏差冷门知识缺失例如网络上大家问的较多的规范问题大模型就能回答的相对准确4大模型本质是概率生成回答时候有一定概率产生幻觉因此垂直领域的知识库的搭建就显的非常必要了。Retrieval Augmented Generation中文翻译为检索增强生成是将信息检索与大模型生成结合的一种技术框架。模型生成答案时会被强制要求基于检索到的最新、最相关的知识库文档片段来组织语言而非依赖其内部可能过时或错误的信息从而极大地降低其幻觉的概率。实战解析第一步文档材料准备我们在实际工作中的规范文档材料多种多样有PDF、word等不同类型的文档。文档内容也并非全部都是有效信息因此需要对文档的内容进一步处理。本文选择将《民用建筑设计统一标准》GB 50352-2019这本建筑规范统一处理为markdown格式规范中的表格则统一处理为html格式方便文档切分及后续的文本向量转换。最终处理好的文件以TXT格式保存。文档清洗是非常重要的一步它将多余噪声清除将非文本格式的内容转化为嵌入模型可识别的格式为后续的工作打下一个坚实的基础。第二步设置API_KEY直接将模型的APIKEY设置为环境变量这样使用起来更方便如将代码公开APIKEY也不会暴露。在本文中文本向量化时使用的嵌入模型来自阿里百炼平台的text-embedding-v1在回答问题阶段则调用的是deepseekDASHSCOPE_API_KEY os.getenv(DASHSCOPE_API_KEY)DEEPSEEK_API_KEY os.getenv(DEEPSEEK_API_KEY)第三步文档向量化并构建可检索的知识库像上一篇文章一样同样是需要将文档做向量化的表达。这是将TXT变为大模型可理解格式的关键一步。我们采用分块策略将长文本切成有重叠的小段既保持上下文又方便精确检索。本文是按照标题的层级结构进行分块的这是针对规范类文档较为常用的一种分块策略能较好的保持文档的语义连贯。将分块的文本转换为向量之后再利用FAISS创建一个本地的向量数据库保存转换后的向量方便进行语义相似度的检索。def process_txt_file(file_path: str, save_path: str None) - FAISS: 从txt文件创建向量存储 # 读取txt文件 text Path(file_path).read_text(encodingutf-8) print(f已读取文件: {file_path}, 文本长度: {len(text)} 字符) # 创建文本分割器 text_splitter RecursiveCharacterTextSplitter( separators[\n#, \n##, \n###, \n\n, \n, 。], chunk_size300, chunk_overlap60, length_functionlen, ) # 分割文本 chunks text_splitter.split_text(text) print(f文本被分割成 {len(chunks)} 个块。) # 创建嵌入模型 embeddings DashScopeEmbeddings( modeltext-embedding-v1, dashscope_api_keyDASHSCOPE_API_KEY, ) # 创建知识库 knowledge_base FAISS.from_texts(chunks, embeddings) print(已从文本块创建知识库。) # 保存向量数据库 if save_path: os.makedirs(save_path, exist_okTrue) knowledge_base.save_local(save_path) print(f向量数据库已保存到: {save_path}) return knowledge_base第四步创建或加载向量数据库首次运行以下函数是调用嵌入模型将txt格式文件转换为向量格式并创建FAISS数据库。当本地已保存了相应向量数据库文件之后再次运行以下函数将加载已保存的向量数据库。def create_or_load_knowledge_base() - FAISS: 创建或加载向量数据库 # 文件路径和保存路径 txt_file_path ./民用建筑设计统一标准GB50352-2019.txt vector_store_path ./vector_store # 创建嵌入模型创建和加载都需要 embeddings DashScopeEmbeddings( modeltext-embedding-v1, dashscope_api_keyDASHSCOPE_API_KEY, ) # 检查向量数据库是否已存在 ifnot os.path.exists(vector_store_path): print(向量数据库不存在开始创建...) # 创建向量数据库 knowledge_base process_txt_file( file_pathtxt_file_path, save_pathvector_store_path ) print(向量数据库创建完成。) else: print(向量数据库已存在开始加载...) # 直接加载FAISS向量数据库 knowledge_base FAISS.load_local(vector_store_path, embeddings, allow_dangerous_deserializationTrue) print(f向量数据库已从 {vector_store_path} 加载。) print(向量数据库加载完成。) return knowledge_base第五步搭建智能问答知识库就绪后我们将其与大语言模型连接形成完整的问答流水线。当你向RAG系统提出了一个建筑设计规范问题系统会先检索知识库寻找语义最为相似的知识切片。然后系统会将系统提示词、找出的知识切片、你提出的问题整合在一起再喂给大模型。最后大模型接收以上所有信息之后再做出相应回答。if __name__ __main__: from langchain_openai import ChatOpenAI # 创建或加载知识库 knowledgeBase create_or_load_knowledge_base() # 初始化语言模型 llm ChatOpenAI( model_namedeepseek-chat, # 或 deepseek-coder 根据你的需求 openai_api_key DEEPSEEK_API_KEY, openai_api_basehttps://api.deepseek.com, # DeepSeek API地址 temperature0.1, max_tokens2048 ) SYSTEM_PROMPT 你是一个专业的建筑标准咨询助手专门回答关于《民用建筑设计统一标准GB50352-2019》的问题。 重要要求每次回答问题时必须在答案中标明答案所依据的具体条款或章节的标题号如4.5.2、3.1.1等。如果答案涉及多个条款需要分别注明每个条款的标题号。回答格式要求1. 先直接回答问题2. 然后标注标题号如依据标准第4.5.2条...请确保答案准确、专业并严格依据提供的文本内容。 # 设置查询问题 query 单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少 if query: # 执行相似度搜索找到与查询相关的文档 docs knowledgeBase.similarity_search(query, k10) # 构建上下文 context \n\n.join([doc.page_content for doc in docs]) # 构建提示 prompt f{SYSTEM_PROMPT} 根据以下上下文回答问题: {context} 问题: {query} 请按照要求的格式回答 # 直接调用 LLM response llm.invoke(prompt) answer response.content print(回答:) print(answer) print(f模型名称: {llm.model_name})尝试向系统提问本文最开始提到的问题单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少可以看到deepseek给出了准确的回答并给出条款的标题号。条款的标题号属于知识切片元数据的一种本文可采用提示词的方式附在答案之后是因为本文所使用的txt格式的规范文件已经转换为结构清晰的文件并且在文档切片时也采用了以文章结构为主的切片策略。结语借助LangChain和RAG我们将专业知识的获取方式从“手动翻阅”升级为“智能对话”。建筑师在大多数场景下并不能清晰的了解自己所需要查询的规范内容尤其对于工作经验不足的新人。但是他们可以提供具体的设计场景让大模型理解具体使用环境进一步帮助我们去翻阅资料。AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】