2026/3/10 15:59:32
网站建设
项目流程
怎样建立自己购物网站,乐歌股份摄像头,全网营销系统,开发公司六证本文介绍了一种大模型工具调用(Tool Use)训练数据合成方法#xff0c;通过导演-演员式多智能体对话生成框架#xff0c;构建高度拟真的多轮对话数据。该方法结合话题路径采样与动态对话生成#xff0c;有效解决了业务场景下工具调用数据稀缺问题#xff0c;并实…本文介绍了一种大模型工具调用(Tool Use)训练数据合成方法通过导演-演员式多智能体对话生成框架构建高度拟真的多轮对话数据。该方法结合话题路径采样与动态对话生成有效解决了业务场景下工具调用数据稀缺问题并实现数据飞轮效应。实验证明该方法显著提升模型工具调用准确率为构建专业级AI导购提供了高质量数据基础。一、引言近年来大语言模型LLM的能力边界不断拓展从检索增强生成RAG为大模型接上了外部知识库让它能给出更可靠的答案到引入思维链COT机制通过显式地生成思考过程增强了模型的逻辑分析与复杂问题拆解能力再到如今的工具调用Tool Use模型真正被赋予了像人类专家一样的能力主动思考、规划、并利用工具去解决未知复杂问题。这标志着模型正从“被动响应者”向“主动智能体”演进让模型在复杂问题解决、响应鲁棒性和生成的透明度上发生质的飞跃。然而“巧妇难为无米之炊”要训练出这样的智能体光有算法远远不够数据才是真正的燃料。DeepSeek的研究工作确立了当前大模型训练的主流范式即先是高质量数据驱动的冷启动阶段再是基于强化学习的优化阶段。但Tool Use的冷启数据难以获取通用模型通常在海量纯文本上预训练再通过人工标注的指令数据微调但这些数据几乎不包含“如何分步调用工具分析工具返回结果做出决策”的完整轨迹。人工标注不仅成本高昂、效率低下还难以覆盖复杂场景的多样性。而特有业务场景的Tool Use数据更加稀缺。因此合成数据成为破局关键。借助更强的大模型自动地生成大规模、高难度、可拓展的Tool Use训练数据。更重要的是这套合成方案还能形成“数据飞轮”训练出的更好模型反过来生成更高质量的数据推动智能体能力的持续优化。我们将以租赁导购助理“小不懂” One Model 架构为例介绍一套面向真实业务需求的 Tool Use 训练数据合成方案。1.1. 租赁助理“小不懂”介绍“小不懂”作为支付宝芝麻租赁频道的官方智能助理核心使命是同时满足用户的问题咨询与商品导购两大需求。这一业务特性决定了其工具调用能力与当前主流的 Deep Research 场景存在差异。在典型的 Deep Research 任务中模型主要依赖知识检索工具来获取信息、验证事实或进行多步推理而“小不懂”不仅需要具备类似的知识检索能力例如查询租赁规则、用户权益、小红书种草内容或全网资讯还必须能高效调用商品库检索工具——即在数万级租赁商品池中根据品类、品牌、型号、功能特征、租金价格、租期选项及商家信誉等多维参数动态筛选并推荐最匹配的商品。这使得现有公开的 Tool Use 数据集无法直接复用。因此我们必须从零构建一套贴合租赁场景、融合知识理解与商品决策的合成数据体系才能真正训练出懂业务、会导购、能闭环的智能助理。技术上我们采用One-Model架构通过单一基座模型实现多工具协同涉及的工具如下1.2. LLM Tool Use 推理训练流程介绍接下来我将分推理流程和训练流程两部分简要介绍如何让模型在实际交互中利用Tool解决用户问题以及如何让模型学习到Tool Use能力。1.2.1. 推理流程在推理阶段模型采用 ReAct方式以自回归方式交替生成推理思考Thought与行动Action并在每一步动态判断是继续调用工具获取更多信息Tool Call还是已具备足够依据输出最终回答Final Response具体流程可以参考下图对于每一步模型会经历如下阶段任务分解与规划将原始拆解为若干可操作的原子子任务如“检索某类产品的种草知识”、“查满足某些条件的商品”工具选择针对每个子任务从预定义工具集中选择最匹配的工具如知识检索、商品库查询或服务卡片触发工具调用与结果融合执行工具调用获取结构化或非结构化返回结果并将其融入当前上下文决策与响应基于累积信息判断是否完成任务——若未完成则回到步骤1继续迭代若已完成则生成最终回复。1.2.2. 训练流程为让模型学习上述推理逻辑我们采用Multi-Step SFT RL训练策略将一条完整的“行动轨迹”数据拆解成多个独立的训练步骤目的是1. 兼顾过程与结果让模型既能学习在任务中途进行下一步行动预测 (Next-Step Prediction)也能学习在任务终点生成最终答案 (Final Response Generation)2. 提升训练效率 在构建训练数据时提前离线获取工具返回结果在训练过程中模型无需等待工具调用结果提升训练效率。1.3. 数据合成的目标与难点1.3.1. 目标目前社区并没有一些很好用的tool use基础模型尽管社区涌现出如search-r1Re-tool等多轮工具调用模型但都是从一个开源的instruct模型针对某方面工具调用如搜索代码进行强化学习但在混合工具调用如知识检索 商品查询 服务触发和复杂多轮交互场景中泛化能力有限难以支撑真实业务中的多样化需求。此外考虑到推理耗时参数量相对小的基座模型80b及以下在长上下文或多轮对话中仍存在历史信息遗忘与内容重复生成等问题。因此我们的核心目标是构建一个适用于租赁导购业务的高质量训练数据集。该数据集必须能够增强模型的多轮对话理解能力确保其能准确把握长对话中的用户意图和关键信息。提升模型的精准工具调用能力使其学会在面对复杂请求时自主规划并协同使用知识、商品、服务等多种工具。强化模型的复杂问题推理能力最终实现一个理想状态我们只需为模型提供可选的工具及其定义它便能自动编排工作流自主地完成任务无需任何硬编码的逻辑。为了达到这个目标我们需要合成包含完整“思考-行动”轨迹的训练数据。每一条数据都应遵循Query-Answer的结构其中Query包含了用户的当前问题及完整的历史对话而Answer则包含了模型完整的工具调用链以及最终给出的人性化回答。1.3.2. 难点在实践中构建这样一个大规模、高质量的多轮Tool Use数据集我们面临着四大核心挑战1. 语料稀缺性缺乏高质量、可复现的多轮工具调用训练语料尤其是多轮tool use训练语料。2. 合成低效性任务链路复杂即便使用更强的主流大模型自动生成的有效轨迹比例仍低且人工标注成本高、准确率难以保障。3. 动态适配性训练数据需与模型能力演进对齐——模型不同训练阶段关注的能力点不同对数据分布的需求不同。4. 场景拟真度生成的问题必须高度拟人化精准还原线上用户的真实表达习惯与租赁业务场景避免机械或脱离实际的对话。二、相关工作2.1. ToolUse公开评测集构建方案ACE-Bench旨在全面评估模型在不同情境下的工具调用能力为此它将数据精心划分为三种类型Normal数据评估模型在基础场景下的工具调用能力Special数据评估模型在指令不完整或参数错误等特殊情况下的表现Agent数据通过多智能体交互模拟真实世界的多轮对话评估模型的在复杂交互环境中的性能。利用GPT-4o模拟用户角色复制真实世界的交互场景。其中Normal and Special data数据由LLM自动构建API合成采用自演进方法通过构建分层 API 上下文树以确保生成的 API 涵盖广泛的领域和功能对话构建从API池中采样3-6个API随机采样子图采样针对简单查询使用模板生成针对复杂查询则引入多智能体用户、助手、工具角色扮演生成动态交互对话。Agent Data由专家构造场景构建从真实世界中抽象出多个场景移动应用、食品配送、金融服务、旅行预订并为每个场景出一系列的tools。环境构建完成这些tools的代码实现问题设计针对不同场景预定义多轮对话规范领域专家进行迭代标注构建对话问题。Tau2-Bench同样利用大模型的多种角色扮演user和agent产生对话不同于之前的工作中只有“助手”能使用工具Tau2-Bench在数据合成时用户和助手均可共享工具和知识这更符合真实场景。其整体的数据构造流程如下定义原子任务将复杂任务分解为最小的、不可再分的“原子任务”。构建任务模版定义一系列“任务模板”来编排这些原子任务形成解决特定问题的标准化流程。模版实例化将抽象的流程转化为具体的、可执行的任务数据。在这一步我们为模板中的每个环节填充具体的原子任务并从领域知识库中抽取参数来丰富细节。同时系统会自动生成任务的初始与目标状态这种方法不仅为任务的正确性验证提供了明确依据也通过参数和任务组合的变化极大地提升了生成数据的多样性。2.2. 其它数据合成方案除了专门的评测集构建学术界还探索了多种面向特定挑战的数据合成技术。1. 在query生成方面WebSailor基于图方法构建了一批高难度的问答数据基于 Wikidata 随机游走构建复杂知识子图。对子图和子表进行采样以生成初始问题和答案。通过模糊化实体或时间生成高难度推理问题。2. 在多步tool use轨迹生成方面Google DeepMind的工作中提到利用更强的大模型迭代生成tool use轨迹迭代生成轨迹: 让一个工具增强的LLM自主解决问题记录其包含思考、工具调用和最终答案的完整“行动轨迹”。轨迹分解与过滤: 将长轨迹分解为多个子任务并利用一个评估模型对轨迹中的每一步行动进行合理性打分。数据过滤只保留那些每一步都被判定为合理的“高质量轨迹”这种过程性过滤Process Filtering被证明是提升数据质量最有效的方式。三、方案介绍然而当前现有Tool Use数据合成方案应用于租赁导购场景时仍面临挑战 业务场景下的对话通常需要围绕特定的目标如商品决策、售后问题咨询等展开。完全无约束的生成如多步轨迹生成虽然多样但容易偏离业务主线而过于依赖模板则会扼杀对话的自然性和灵活性无法有效模拟用户意图的动态变化。针对上述挑战我们提出一种动态多智能体对话生成框架。我们借鉴影视创作中的“导演-演员”协作机制通过可控的话题路径引导与角色驱动的动态交互在保证业务合规性的同时生成高度拟真、逻辑连贯且覆盖全链路的多轮对话数据。该方案不仅弥补了现有方法在场景深度与交互自然性上的不足也为构建专业级租赁导购 AI 提供了高质量、可扩展的数据基础。3.1. 多轮数据合成通过“导演-演员”式协作框架多智能体用户、助手的角色扮演来生成动态交互模拟真实世界的多轮对话。3.1.1. 对话话题路径采样输入话题池、主推商品信息如“大疆pocket3”或租赁场景如“演唱会”。输出差异化用户租赁偏好对话话题转移路径。实现步骤步骤1构建话题池。根据业务场景定义租前、租中、租后三个阶段的话题节点及示例让对话贴合业务场景。步骤2获取商品结构化知识。利用该知识让模型提出符合真实场景的问题。{ product_name: 大疆pocket3, knowledge: [检索到的种草知识文档...], attribute: { 简介: 大疆Pocket3是大疆推出的一款便携式云台相机支持4K视频拍摄提供多种参数调节功能如曝光0.3、感光度50-6400、白平衡4700K等支持10bit色彩深度。用户可通过自定义参数提升画质如关闭美颜、调整锐度与去噪等。设备支持竖屏模式、自动旋转运镜及希区柯克变焦功能操作门槛较高但画质表现优秀适合内容创作。, 特点/卖点: [电影级画质还原, 直出参数可调性强白平衡/曝光/色彩等, 云台稳定技术主角跟随/自动虚化背景, 支持4K竖屏拍摄, 多种创意运镜模式自动旋转/希区柯克变焦], 同类商品/竞品: [{ 品牌: 影石, 型号: [GO3S, AcePro2] }, { 品牌: 大疆, 型号: [mini2] }], 适用场景: 旅行记录、vlog创作、口播视频拍摄、探店场景、户外风光及人像摄影, 适用人群: 自媒体创作者、视频内容制作者、旅行爱好者、追求高质量便携拍摄设备的用户 } }步骤3生成话题转移路径实现有逻辑、有目的的话题转移让对话可控且灵活。对话路径的定制化要求如对话路径中必须出现两次“商品选择要求”节点。使得生成的对话可控同时可以控制数据的多样性。【对话路径采样结果展示】{ 场景: iPhone新品尝鲜, 品类: 手机, product_name: iphone17 pro, product_info: { 简介: xxx, 特点/卖点: [xxx], 同类商品/竞品: [{品牌: xx, 型号: [xxx]},...}], 适用场景: xxx, 适用人群: xxx }, sop: [{ 租赁场景: iPhone新品尝鲜, 租赁需求: { 价格: 希望日租金控制在50元以内, 租期: 需要租用7-10天, 商品成色: 全新, 商品属性特征: 重点关注摄像头的变焦能力和防抖性能 }, 提问路径: 使用场景描述→商品选择要求→商品信息咨询→租赁规则咨询→商家售后问题, }, { 租赁场景: iPhone新品评测, 租赁需求: { 价格: 接受日租金80-100元, 租期: 短期3-5天, 商品成色: 二手9成新以上, 商品属性特征: 需要A19芯片120Hz高刷屏 }, 提问路径: 使用场景描述→商品对比→商品对比→租赁规则咨询→审核信息搜集, }] }3.1.2. 多Agent动态对话生成用户 Agent负责生成用户提问输入用户租赁偏好上一步生产的用户租赁偏好。历史对话上下文当前的对话上下文。当前指定的话题节点由“导演”模块预设的本轮对话目标如“商品对比”“租赁规则咨询”等。输出自然语言提问生成符合真实用户表达习惯的口语化问题包含合理的指代、省略或上下文依赖例如“这个长焦效果怎么样”而非“iPhone 17 Pro 的长焦镜头成像质量如何”。结构化意图解析包括问题类型如“商品属性咨询”“售后规则查询”、提及的商品实体如品牌/型号以及推荐调用的工具如knowledge\_search或search\_db。这部分输出是指导助理Agent选择合适的工具和回复策略从而提升回答的准确性与业务贴合度。2. 助理 Agent负责生成复杂回复输入完整历史对话用户Agent的输出的提问用户Agent的输出的推荐调用的工具输出根据任务需求生成“带商品卡片”或“不带商品卡片”的自然语言回复。工具驱动的回复策略若需调用knowledge\_search 提取用户问题中的关键词构造检索查询query再从知识库如内部规则、小红书种草内容、全网资讯中获取相关信息。若需调用search\_db 我们不直接查询真实数据库根据用户需求参数品类、品牌、价格区间等直接 Mock 符合条件的商品数据这样做有两个好处1. 避免真实API调用开销加快了数据合成速度。2. 允许我们可控地注入负样本如不匹配的商品、错误信息以增强模型鲁棒性。【多轮对话生成效果展示】{ session: { metadata: { user_preference: { 租赁场景: iPhone新品评测, 租赁需求: { 价格: 接受日租金80-100元, 租期: 短期3-5天, 商品成色: 二手9成新以上, 商品属性特征: 需要A19芯片120Hz高刷屏, 型号: iphone17 pro }, 提问路径: 综合商品推荐→商品对比→商品对比→租赁规则咨询→审核信息搜集, }, product_info: { 商品简介: iPhone 17 Pro是苹果公司于2025年9月10日发布的智能手机于9月19日正式发售。它采用全新横向大矩阵摄像头设计一体成型的航空级铝合金机身后盖为超磁晶面板。提供银色、星宇橙色、深蓝色三种配色。配备6.3英寸超视网膜XDR显示屏支持ProMotion自适应刷新率技术最高120Hz。搭载基于台积电3nm工艺的A19 Pro芯片配备12GB运行内存存储容量从256GB起步另有512GB和1TB选项。后置三颗均为4800万像素的融合式摄像头支持8倍光学变焦和最高40倍数码变焦。前置1800万像素的Center Stage摄像头。内置锂离子充电电池视频播放最长可达31小时支持40W有线快充20分钟可充至50%电量和Qi2.2无线充电最高25W。运行iOS 26系统。起售价为8999元256GB版本。其VC均热板散热系统提升了持续性能表现但部分用户反馈其铝合金机身相对易出现划痕或凹陷。, 特点/卖点: [强大的A19 Pro芯片配合VC均热板散热系统带来高达40%的持续性能提升适合高强度任务和游戏, 专业的影像系统三颗4800万像素后置摄像头支持8倍光学变焦、ProRes RAW专业视频格式视频拍摄能力尤其是防抖和色彩还原表现突出, 出色的续航能力电池容量显著提升iPhone 17 Pro Max视频播放最长可达37小时, 坚固耐用的机身设计前后均配备超瓷晶面板背面抗裂能力提高4倍正面抗刮划能力提升至3倍, 流畅的显示效果支持120Hz ProMotion自适应刷新率的超视网膜XDR显示屏, 一体成型的航空级铝合金机身优化散热和手感], 同类商品/竞品: [{ 品牌: 小米, 型号: [小米17 Pro] }, { 品牌: 华为, 型号: [华为Mate 70 Pro] }], 适用场景: 专业摄影与视频创作尤其是需要高质量变焦和专业视频格式的场景、高强度移动游戏得益于强大的芯片和散热系统、需要长续航和快速充电的日常使用与差旅场景、对手机耐用性和显示效果有高要求的各种应用场景。, 适用人群: 摄影爱好者和专业内容创作者、追求顶级性能和流畅系统体验的用户尤其是苹果生态用户、手游玩家、对手机续航、充电速度及整体耐用性有较高要求的用户、预算充足并希望手机能长期使用如四五年的用户。, 商品名称: iphone17 pro } }, dialogue: [{ role: user, content: 今年iPhone发布了哪些款手机, select_tool: knowledge_search,search_db, intent_category: 咨询教程指南, mentioned_product: [] }, { role: assistant, content: 哇今年苹果确实发布了重磅的新款iPhone呢 \n根据最新消息苹果在9月10日发布了全新的iPhone 17系列包括iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max三款旗舰机型都是搭载了最新的A19芯片和各项技术创新\n\n**iPhone 17**\n- 搭载A19芯片性能强劲\n- 首次配备120Hz ProMotion自适应刷新率屏幕\n- 主打性价比适合广大用户群体\n\n\n商品名称: iPhone 17 Pro 无锁|非监管机 高通过率 全新苹果 0押金0预付 赠送壳膜 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro\n商家名称: 叮咚品租\n商品成色: 全新\n日租金: 15.68元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,300人租过\n**iPhone 17 Pro**\n- A19 Pro处理器专业级性能\n- 12GB RAM 三摄系统影像能力出色\n- VC散热技术游戏体验更佳\n\n\n商品名称: 【首月1元】 iPhone 17 Pro Max 2025新款 国行全新 原封未激活 官网正品\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 三宜租机\n商品成色: 全新\n日租金: 16.67元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,600人租过\n**iPhone 17 Pro Max**\n- 顶配版Pro系列专业用户首选\n- 4800万像素三摄系统4倍光学变焦\n- 超大电池容量续航表现优秀\n\n\n商品名称: iPhone 17 Pro Max 首月5折 全新国行 官方正品 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 友好物Apple产品租赁\n商品成色: 全新\n日租金: 12.23元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,隐私保护,晚发必赔,1.2万人租过\n这几款新机都支持5G网络拥有出色的影像系统和长续航能力无论是日常使用还是专业创作都很棒呢如果你想体验最新款的iPhone现在就可以在芝麻租赁平台上找到合适的租赁方案哦~ , }, { role: user, content: 17和17 pro区别, 完整问题: iPhone 17和 iPhone 17 pro区别, 追问策略: 依赖上一轮回答, select_tools: knowledge_search,search_db, intent_category: 商品属性对比, mentioned_product: [iPhone 17, iPhone 17 Pro] }, { role: assistant, content: iPhone 17 和 iPhone 17 Pro 的主要区别如下基于2025年苹果发布信息\n\n1. **核心配置** \n - **芯片**17 Pro 搭载 **A19 Pro**3nm工艺性能提升40%17 标准版为 A19性能略低无Pro后缀 \n - **运存**Pro 配备 **12GB RAM**标准版为 8GB \n - **存储**Pro 起步 **256GB**可选512GB/1TB标准版起步128GB \n\n2. **影像系统** \n - **摄像头**Pro 后置三颗 **4800万像素** 镜头支持8倍光学变焦标准版为双摄系统无长焦镜头 \n - **视频能力**Pro 支持 **ProRes RAW** 专业格式防抖和色彩优化更强 \n\n3. **屏幕与设计** \n - **屏幕**Pro 为 **6.3英寸120Hz 自适应刷新率** 屏标准版为 60Hz \n - **材质**Pro 采用 **航空级铝合金** 机身超磁晶面板标准版为普通铝合金 \n\n4. **续航与充电** \n - **电池**Pro 视频播放 **31小时**标准版约26小时 \n - **快充**两者均支持40W有线快充但 Pro 无线充电功率更高25W vs 15W \n\n5. **价格差异** \n - Pro 起售价 **8999元**256GB标准版预计低2000-3000元 \n\n简单总结Pro 适合追求极致性能、摄影和屏幕体验的用户标准版性价比更高适合日常使用。需要帮你对比其他参数吗 },{ role: user, content: 审核需要身份证吗, 完整问题: 审核需要身份证吗, 追问策略: 独立问题, select_tools: knowledge_search, intent_category: 芝麻租赁内部问题, mentioned_product: [] }, { role: assistant, content: [订单履约纠纷卡片服务卡片] }, { role: user, content: 为什么商家找我要了, 完整问题: 为什么商家找我要了身份证, 追问策略: 依赖历史对话, select_tools: rental_service, intent_category: 审核信息搜集, mentioned_product: [] }] } }3.2. 复杂问题合成复杂问题示例数据构造流程输入可选工具集 复杂问题few-shot 用户租赁偏好输出复杂问题 工具调用链作为数据构造专家请参考复杂问题示例依次构造各个租赁场景下高质量的复杂问题。要求该复杂问题需求是隐性的和复杂的解决用户问题需要多个工具之间协调调用。请输出复杂问题以及对应的工具调用链。 # 可选工具 【这里是工具描述】 # 复杂问题示例 问题 南京2177买了125区的票想出图有什么推荐的吗** 工具调用链知识检索(解码演唱会行话) - 知识检索(分析座位位置) - 知识检索(演唱会场馆不同位置的拍照设备推荐) - 商品检索(根据推理结果搜索特定品类)。 # 用户租赁偏好 {query}{ query: 周杰伦上海站内场1排想拍4K视频发抖音但怕手机过热租个能长时间录4K还不烫的相机最好带云台。, tool_call: 知识检索(内场1排拍摄需求分析) →知识检索(4K长时间录制设备散热能力) →商品库检索(品类相机, 特征4K持续录制/散热好/支持云台) →服务承接(确认是否提供云台配件租赁) }, { query: 新手学拍vlog想租个带美颜、能竖屏、重量500g的相机还要有B站教程租一周。, tool_call: 知识检索(vlog新手设备选型标准) →商品库检索(品类相机, 特征美颜/竖屏/重量500g, 租期7天) →知识检索(关联B站/小红书种草教程) }3.3. 数据过滤方案同tau2-bench方案类似我们会预先定义 任务类型-工具调用list用户帮助验证数据的正确性过滤掉明显错误的样本为了保证数据质量最后还是会进行人工二次核验和订正。### 1. 商品推荐 - 触发条件用户的主要意图是寻找商品明确表达了品牌、型号、品类修饰词、使用场景、参数或价格要求。 - 示例“华为Mate60”、“适合拍vlog的相机”、“长续航”、“月租3000”、“热门手机” - 工具链[强制执行] knowledge_search(种草) - [强制执行]search_db ### 2. 芝麻租赁内部问题 - 触发条件除了「服务履约」覆盖的范围只要用户关于租赁问题涉及租/借规则、流程、平台活动爆品、超值、秒杀等、芝麻分、专享服务、信用、免押、资格、费用、订单、政策、app操作等 - 示例“租期怎么算”、“租手机限制年龄吗” - 工具链[强制执行]knowledge_search(租赁内部知识) - [条件触发]knowledge_search(全网搜) ### 3 通用问答 - 触发条件需要实时信息 - 示例“今天天气怎么样”、“美国总统是谁” - 工具链[强制执行]knowledge_search(全网搜) ### 4. 无意义问题 - 触发条件无信息的问题 - 示例“你好” - 工具链 禁止调用工具直接礼貌回复引导到商品推荐。 ...3.4. 线上数据积累模式先上线后我们会回流的线上数据对预测结果进行打标统计错误类型并针对badcase构造更多训练数据通过这一步实现模型的自我改进。总结下来我们数据合成整体节奏如下四、数据效果4.1. 合成数据分析问题类型分布历史对话轮次分布工具调用次数分布4.2. 模型效果分析4.2.1. 训练数据量影响实验配置模型基座模型为Qwen3-Next-80B-A3B-Instruct采用SFTRL多阶段训练。数据经过人工逐步筛选和反复的订正最终得到了1500条高质量的训练数据。训练数据格式如下{ conversations: [{ from: human, value: 想租个VR设备有什么推荐吗 }, { from: gpt, value: 根据你的需求我为你精选了一款适合租赁的VR设备都支持短期3天体验和较长期90天租赁。考虑到你是为了观看TXT vr演唱会这款设备具备高清显示和舒适佩戴的特点而且都提供操作指南和预装软件上手简单方便~\n\nspu_card\n**Pico Neo3 VR一体机**\n - 国产VR设备的优秀代表性价比超高\n - 适合初次体验VR的新手用户\n - 300元左右的租赁价格非常亲民\n\n**价格最优选择**\n商品名称Pico Neo3 VR一体机, \n商家名称惠租,\n品牌Pico,\n规格128G存储版,\n商品成色全新,\n日租金累计300人租过,\n销量80/月,\n可选租期3天/7天/90天,\n服务保障租期质保隐私保护寄出包邮,\n商品特征免押同城自提,\n是否有高分专享优惠否\n/spu_card\n\n[使用小贴士]\n1. 使用VR设备时建议在宽敞空间避免磕碰\n2. 初次使用可能会有轻微眩晕感建议先适应15分钟\n3. 佩戴前记得清洁面部和眼镜(如果戴眼镜)\n4. 观看演唱会时可以调节瞳距和焦距获得最佳效果\n5. 设备电量充满可连续使用2-3小时建议备好充电宝 }, { from: human, value: 有这个的操作指南吗 -- 完整问题为有Pico Neo3 VR一体机的操作指南吗 }, { from: function_call, value: {\name\:\knowledge_search\,\arguments\:{\thought\:\用户询问Pico Neo3 VR一体机的操作指南需要搜索相关的使用教程和操作说明\,\search_groups\:[{\query\:\Pico Neo3 VR一体机 操作指南 使用教程\,\source\:[\种草知识\]}]}} }, { from: observation, value: 搜索词Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源种草知识\n标题Pico VR开发课程推荐\n内容大三下时学校课程《虚拟现实与交互》需要做一个VR游戏。当时购买了Pico虚拟一体机以及找到了这套课程让我短时间内完成了一个可玩性高的飞行解谜游戏。由于建模太丑陋我没放到我小红书上哈哈 这套课程包括以下仅罗列我个人上手时最困惑最需要的知识 1 Pico开发环境准备 2 Pico VR项目的创建与导出 3 实时预览测试 4手柄输入绑定 5 自定义手柄模型 6 手柄射线交互 7 瞬移与持续移动 8 手柄射线外观更改 9 开枪交互/攀爬交互/推拉抽屉交互/推拉电闸交互/与门交互/旋转方向盘交互 10 交互反馈系统的使用 11 手柄震动反馈 [蹲后续H]不知道有没有别的好教程蹲推荐因为我又要回头优化我的VR项目了\n互动数据154点赞 159收藏 14评论\n------------------------------\n搜索词Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源种草知识\n类目相机\n知识内容**出游相机推荐 | 这俩随身带人像直接封神✨** 「厦门的海边、青岛的洋房、大理的雪山... 这些地方不拍人像等于白去」 最近被问爆的出游相机—— **佳能G7X3** 必须提名拍人像自带“妈生好皮”效果皮肤透亮又不假白翻转屏举高高自拍超方便闺蜜合照再也不用担心脸大重点是小巧到能塞进包包边逛边拍完全不累赘 如果偏爱复古胶片感可以看看 **理光GR3** 质感超绝扫街抓拍超快但自拍得外接屏幕懒人慎入哈哈。 总结要美颜方便选G7X3要文艺氛围选GR3反正人像都能原地出道 下次教程教你怎么调参数先码住\n------------------------------\n搜索词Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源种草知识\n知识类型视频\n知识标题告别自动挡Pico 4 VR眼镜一体机内置海量游戏 最佳参数设置指南画质秒提升\n知识内容lifeTabVideoCard\ncodevid_4be34d233c/code\n/lifeTabVideoCard\n播放量103399\n------------------------------ }, { from: function_call, value: {\name\: \search_db\, \arguments\: {\thought\: \用户询问Pico Neo3 VR操作指南现在要查询该型号的租赁商品\, \queries\: [{\brand\: \Pico\,\models\: [\Neo3\]}]}} }, { from: observation, value: name: Pico neo3 VR眼镜一体机内置海量游戏 当天发出\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\nspecs: Pico 3-256G:畅玩版【提供游戏电影不停更新】\ncondition: \ndaily_rate: 203.58元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 否\nsales: 50\nsales_ranking: other\nsingle_spu_tag: 销量第一\nitem_id: 2025021322000258125475\nITEM ID2025021322000258125475\n--------------------------------------------------\nname: Pico neo3 VR眼镜一体机内置海量游戏\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\nspecs: Pico 3-256G:畅玩版【提供游戏电影不停更新】\ncondition: \ndaily_rate: 71.82元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 是\nsales: 15\nsales_ranking: other\nsingle_spu_tag: 综合第一\nitem_id: 2025042822000973304542\nITEM ID2025042822000973304542\n--------------------------------------------------\nname: Pico4/ Pico Neo3 VR眼镜一体机出租租赁 游戏丰富 可串联电脑PCVR半条命艾利克斯\nspu_name: Pico 4\nmerchant: 云租机\nbrand: Pico\nspecs: Pico Neo3\ncondition: \ndaily_rate: 107.88元/天\nlease_periods: 7, 30, 90, 180, 365\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 否\nsales: 276\nsales_ranking: other\nsingle_spu_tag: 低价优先\nitem_id: 2024121222000145855035\nITEM ID2024121222000145855035\n-------------------------------------------------- }, { from: gpt, value: 我来为你详细介绍Pico Neo3 VR一体机的操作指南这款设备上手其实很简单新手也能快速掌握~ \n\n**Pico Neo3 基础操作指南**\n\n**开机与设置**\n- 长按电源键开机首次使用需要完成基础设置\n- 设置安全区域在宽敞空间划定游戏区域设备会在你靠近边界时显示现实画面\n- 调整头带和瞳距确保佩戴舒适和画面清晰\n\n**手柄操作**\n- 左手柄通常用于移动、抓取物品\n- 右手柄用于交互、选择、确认操作\n- 摇杆控制移动方向\n- 扳机键确认选择、抓取物品\n- 菜单键呼出系统菜单\n\n**实用功能**\n- 支持手机投屏可以在VR中观看手机内容\n- 内置Pico Store有150游戏和应用可选\n- 支持串流电脑玩Steam VR游戏需要安装游戏串流助手\n- 4K高清显示360度环绕立体声\n\n**使用小贴士**\n1. 初次使用建议先适应15分钟避免眩晕\n2. 游戏前确保电量充足满电约2-3小时使用\n3. 保持周围环境安全避免磕碰\n4. 定期清洁镜片和面部接触部位\n\n如果你想要亲身体验Pico Neo3的操作这里有几款不错的租赁选择\n\n**Pico Neo3 VR一体机**\n- 国产VR设备中的性价比之选\n- 适合VR新手入门体验\n- 内置丰富游戏和应用资源\n\n**销量第一**\nitemCard\ntypeitem/type\nitem2025021322000258125475/item\n/itemCard\n\n**综合第一**\nitemCard\ntypeitem/type\nitem2025042822000973304542/item\n/itemCard\n\n**低价优先**\nitemCard\ntypeitem/type\nitem2024121222000145855035/item\n/itemCard\n\n希望这些操作指南对你有帮助如果想深入了解某个特定功能随时可以问我哦~ \n\nlifeTabVideoCard\ncodevid_434b31642c/code\n/lifeTabVideoCard } ], tools: 这里是各个工具的参数定义 system: }评测口径工具选择是否正确工具参数是否正确回答格式是否正确评测结果结论随着训练数据量的增加模型SFT后准确率由64%提升到88%。4.2.2. 数据合成方法效果无话题路径采样以租赁商品/租赁场景为种子让user agent和simulator随机对话。无多Agent生成以租赁商品/租赁场景为种子一次性生成多轮问题和答案。线上数据采样线上数据结论使用我们的数据合成方法能更有效的让模型学习到工具调用能力。4.2.3.多轮理解与工具调用互相泛化结论在模型训练前期我们仅用多轮问答数据训练模型发现也能提升工具调用能力证明模型的多轮理解与工具调用任务是相辅相成的构造高质量的多轮历史对话数据也能帮助模型更好的学习工具调用。五、未来工作数据合成的工作仍处于持续迭代阶段接下来我们计划从以下方面继续深耕通往更智能、更可靠的AI导购之路1. llm-as-judge提效数据过滤基于大模型做数据评估和筛选提升数据合成效率。2. 基于知识图谱构造复杂query构造租赁场景知识图谱包括人群偏好、商品属性等实现基于图谱构造复杂问题。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】