2026/3/16 6:36:15
网站建设
项目流程
网站建设需要多少时间,建站个人网站,WordPress微说,招聘页面设计2025年12月26日#xff0c;【想象2025极新AIGC峰会】在上海浦东浦软大厦成功召开。Zilliz出海业务负责人乔丹先生在会上做了题为《向量数据库对研发范本转移的影响》的演讲#xff0c;从非结构化数据特点、大模型幻觉解决到向量技术应用场景#xff0c;深入解析了向量数据库…2025年12月26日【想象·2025极新AIGC峰会】在上海浦东浦软大厦成功召开。Zilliz出海业务负责人乔丹先生在会上做了题为《向量数据库对研发范本转移的影响》的演讲从非结构化数据特点、大模型幻觉解决到向量技术应用场景深入解析了向量数据库如何重构AI研发的底层逻辑。Zilliz出海业务负责人 乔丹乔丹重点提到以下几点“AI业务中非结构化数据向量化是目前最为常见且成熟的数据处理手段之一。”“幻觉有多种表现形式如在日常生活中我们能直观感知到的就是AI产出了错误的答案。”“万物皆可向量化”以下为乔丹演讲原文经极新整理希望能给大家带来收获。01数据治理挑战“非结构化数据其实都是可以通过向量来进行表征的”首先我们如果要给它一个简单的定义除了传统标量形式比如一个字段一串字符之外视频、音频、图片这类数据我们定义为非结构化数据而这些非结构化数据其实都可以通过向量来进行表征。我们试想每天接收的各种信息中除了文字数据很多都是通过视频、音频等形式获取的。其实非结构化数据在我们生活中的占比远比各位想象的要高这张饼状图可以很好地揭示了我们日常信息收集中的信息占比非结构化数据显然处在相对主导的位置。当然在计算机领域或者在数据治理领域非结构化数据的应用其实还处于方兴未艾的早期状态。我们的使命就是专注于解决非结构化数据相关的问题。这里我们做一个简单的数学理解结合最早的解析几何知识我们可以把生活中很多事物标定为二维、三维乃至无数维坐标系中的一个点。现在以三维为例比如有两个单词“面包” 和“bread”。“面包”可在向量空间中用一组特征向量如xyz123表征而在传统关键词搜索中很难直接将“面包”与“bread”匹配——传统搜索仅能匹配“面”“包”这类字面重合的关键词无法感知二者的语义关联。但如果把它们映射到几何框架中“面包”是 123“bread”是124在向量空间中我们可以计算它们之间的相对几何关系和距离进而得到二者的相关性。这就是为什么我们可以用一种简单的几何方法将以前无法匹配和关联的非结构化数据关联起来。当然这只是一个简单例证如果我们能把这些维度进行百倍、千倍甚至万倍的拓展一串几何字符所能囊括的信息会远超我们的想象。02模型可靠性危机“幻觉有多种表现形式在日常生活中我们能直观感知到的就是它产出了错误的答案”某知名厂商的大模型之前的能力可以通过一个问题来验证单词school books有几个o这是个很简单的问题但之前一些版本的大模型给出的回答是有两个这显然和人眼观察的实际情况不符正确答案应该是有4个o。这种情况不只是国内存在海外也一样。还会自作聪明地补充了这些字母分别出现在哪些位置但它给出的位置也是错误的佐证。不过如果追加提问进行纠正模型有时候是能够反省的。在纠正之下模型会再进行一次计算最终得出正确的答案。这种现象叫什么有个很专业的名词叫Hallucination也就是幻觉。这其实是个非常哲学化的概念当我们把大模型当作一个交流对象时它给出的那些并非是基于事实的回答而是幻觉。幻觉可以有很多种表现形式但在日常生活中我们能直观感知到的就是它产出了错误的答案。这些其实都是很小的问题但试想如果使用者是一名学者正在进行严谨的学术研究2023年我们用旧版本模型做了一次简单测试没有任何上下文直接提问上海市 GDP 排名前三的是哪个区 模型给出的答案是浦东新区、武汉新区、杨浦区。先不管浦东新区和杨浦区是不是前三我们能确定的是武汉新区根本不属于上海这显然也是出现了幻觉。但此时我们该如何克服这种现象其实这就涉及到技术领域老生常谈的方法“检索增强生成”也就是我们俗称的 RAG。简而言之我们会在操作中针对性弥补这一弊端方法很简单在提出问题的同时人为插入一个知识库为大模型提供对应数据比如上海下属各区的实际 GDP 数据随之而来大模型给出的回答就是正确的。这就是一个非常简单的RAG雏形能帮助大家在使用大模型处理文档或生活中的问题时既利用它的优势又避免它对真实信息的干扰。但同时有些场景下并不会这么顺利因为我们可能没有现成的知识库这时候该怎么做答案也很简单需要在给大模型的提示词prompt中加上“如果没有答案就不要瞎编”的要求。当大模型接收到这个信息后比如面对“上海市 GDP 排名第三的区是哪个”这类问题若现有知识库信息无法判断它就会如实回应还会给出一些相关性解释总而言之它最终不会给出误导性的结论式表达避免对实际生活中的操作产生重大偏差影响。如果不想纠结复杂的 IT 概念可以简单理解当我们把这类优化措施封装在后台以及封装在用户端或业务端的各个交互环节时就产生了各种各样的 RAG 演化和变种这也是我们现在强调的 AI 在终端或业务端创新的重要方面。03技术应用瓶颈“万物皆可向量化”2022 年的时候还有很多人把大量的经济成本以及团队精力投入到发掘创意上面但显然模型的增长能力对我们而言是比较有挑战性的。而 RAG 能让我们以一种相对轻度、便捷的方式解决很多切实的业务问题。那么在这个环境中向量数据库起到什么作用可以理解为在与大模型的沟通当中所有语言内容的底层其实都不是一串规则化的标量而是语义化的向量语义即向量。所以当你要大规模地为大模型插入知识库时其底层依托的其实就是向量数据库。由此我们可以产生一个应用场景迁移的思考向量数据库会在哪些方面起到作用横向上在搜索、推荐系统、大模型、风控等场景都能发挥作用横轴可以无限延伸纵向上则对应非结构化数据类型这类数据其实都可以被向量化。两者交叉会产生无数的应用场景赋能。这些能力其实都是日常可以用到的。比如大家在A电商平台进行购物你觉得某样东西特别贵去 B 电商平台拍张照搜索会发现同款商品价格比其他地方便宜90%。这是怎么实现的其实就是把两张图片的向量特征提取出来再进行比对计算它们在坐标系里的某种算法下的最合适的近邻关系我们就找到了最具性价比的商品。这是商业场景的应用刚才也提到了分子药研发我们可以把分子结构进行向量化。我们服务的客户里也有材料类型的企业甚至在自动驾驶领域随着越来越多的多模态方案出现相关技术如何辨别不同数据之间的差异都可以借助向量数据库来实现