2026/3/27 4:50:59
网站建设
项目流程
手机网站开发c,竞价排名点击,项目计划书ppt,网上推广兼职文章系统介绍了四种主要AI代理的评估方法#xff1a;编码Agent注重代码执行结果和过程质量评估#xff1b;对话Agent需兼顾任务完成和交互体验#xff1b;研究Agent关注信息收集全面性和来源可靠性#xff1b;计算机使用Agent则需验证界面操作和后台逻辑正确性。同时提出pa…文章系统介绍了四种主要AI代理的评估方法编码Agent注重代码执行结果和过程质量评估对话Agent需兼顾任务完成和交互体验研究Agent关注信息收集全面性和来源可靠性计算机使用Agent则需验证界面操作和后台逻辑正确性。同时提出passk(可用性)和pass^k(稳定性)两种核心评估指标为不同类型AI代理提供定制化评估方案帮助开发者精准衡量Agent性能。一、评估编码 Agent 的方法编码 Agent 的主要任务编写、测试和调试代码像人类开发者一样在代码库中检索浏览所以编码 Agent 是依赖于明确指定的任务根据这一点我们可以知道确定性评分器非常适合编码 Agent第一方面的评估要点是代码能否运行、测试是否通过这里介绍两种编程基准SWE-bench VerifiedTerminal-Bench1、Terminal-Bench 这个的理解就是其不是修复单一的编译错误而是完成整个编译过程这个就是端到端的测试从开始到结束例如部署 Web 应用、从零搭建 Mysql 数据库2、SWE-bench Verified 是一种“单元测试”常规的使用方法• 给 Agent 一个真实的问题• Agent 开始编写修复代码• 运行测试套件保证 Agent 编写的修复代码可以通过测试第二方面的评估要点是Agent 的工作过程是否合理高效当你有了测试案例集测试函数来验证编码 Agent 执行的任务的结果的时候评估编码 Agent 的工作过程也是很有用的不仅要单一的评估测试结果是否通过也要观察评估完成任务的过程是否合理以及优雅这个时候有两种额外的评估方法基于启发式规则的代码质量评估也就是用代码规则来检查代码质量而不是只看测试结果• 代码的复杂度• 代码的重复率• 命名的规范• 安全漏洞• 性能问题• 代码的可读性基于模型的行为评估用 大模型去评估 Agent 的执行任务的中间过程也就是行为例如任务 A - 查询数据库中的用户信息AgentA 的做法直接查询所有用户的信息在内存中进行过滤AgentB 的做法用 where 语句条件查询用户信息最后返回需要的数据在这种情况下虽然 A 与 B 都完成了任务但是 AgentB 其实是做得更好的更符合规范的结论编码 Agent 的评估要评估两个主要方向编码 Agent 的执行结果和执行过程案例这是一个完整的案例实际使用的时候可以动态调整不必全部都有task: id: fix-auth-bypass_1 # 任务ID修复认证绕过漏洞_1 desc: 修复当密码字段为空时的认证绕过漏洞... graders: # 评分器 - type: deterministic_tests # 确定性测试 required: - test_empty_pw_rejected.js # 拒绝空密码的测试 - test_null_pw_rejected.js # 拒绝null密码的测试 - type: llm_rubric # LLM评分标准 rubric: prompts/code_quality.md # 代码质量评分提示词文件 - type: static_analysis # 静态代码分析 commands: - eslint # 代码风格检查 - tsc # TypeScript类型检查 - type: state_check # 状态检查 expect: security_logs: event_type: auth_blocked # 期望安全日志中有认证阻止事件 - type: tool_calls # 工具调用检查 required: - tool: read_file params: path: src/auth/* # 读取认证代码 - tool: edit_file # 编辑文件 - tool: run_tests # 运行测试 tracked_metrics: # 追踪指标 - type: transcript # 对话记录指标 metrics: - n_turns # 对话轮数 - n_toolcalls # 工具调用次数 - n_total_tokens # 总token消耗 - type: latency # 延迟指标 metrics: - time_to_first_token # 首token时间 - output_tokens_per_sec # 输出速度tokens/秒 - time_to_last_token # 总完成时间二、评估对话 Agent 的方法对话代理在与用户互动时涉及支持、销售或辅导等领域。与传统聊天机器人不同它们会保持状态、使用工具并在对话中途采取行动。虽然编程和研究代理也可能涉及与用户的多次互动但对话代理呈现出一个独特的挑战互动本身的质量也是你评估的一部分。对话代理的有效评估通常依赖于可验证的最终状态结果和能够捕捉任务完成与互动质量的评分标准。与其他大多数评估不同它们通常需要第二个 LLM 来模拟用户。我们使用这种方法在我们的对齐审计代理中通过长时间的对抗性对话来测试模型。 第一方面的评估要点可验证的最终状态也就是对话 Agent 最终要完成的任务例如客服退款、修改收货地址、生成报价单等 第二方面的评估要点相比其他类型 Agent 的独特的挑战互动本身的质量也是你评估的一部分例如场景 - 客服退款Agent A用户“我要退款”Agent“订单号”用户“12345”Agent“已退款”任务完成 但态度生硬Agent B用户“我要退款”Agent“很抱歉给您带来不便。请问是哪个订单呢”用户“12345”Agent“我查到了您的订单符合退款条件。我现在为您处理预计3-5个工作日到账。还有其他需要帮助的吗”任务完成 交互体验好结论所以对话 Agent 的评估标准是最终状态验证 交互质量的评估一个对话 Agent 是否有效的标准可以是多维度的用户的问题和诉求是否解决状态检查、是否在 10 轮对话中完成文本上下文的约束、语气是否恰当LLM 来评估有两个多维度的测试基准其模拟了零售支持和航空预订等领域的多轮交互其中使用了一个 LLM 扮演用户角色这两个测试基准-Bench 及其后续版本τ2-Bench在开发类似场景和领域的客服对话 Agent可以使用这两个测试基准来评估自己开发的 Agent 是否有效一个测试评估案例对话 Agent 处理沮丧用户的退款graders: # 1. LLM评分标准 - type: llm_rubric rubric: prompts/support_quality.md # 客服质量评分提示词文件 assertions: # 列出来的评分的重点角度 - Agent对客户的沮丧表现出同理心 - 解决方案被清晰地解释 - Agent的回复基于fetch_policy工具的结果 # 2. 状态检查 - type: state_check expect: # 期望的最终状态 tickets: status: resolved # 工单状态已解决 refunds: status: processed # 退款状态已处理 # 3. 工具调用检查 - type: tool_calls required: # 必须调用的工具 - tool: verify_identity # 验证身份 - tool: process_refund # 处理退款 params: amount: 100 # 金额必须 ≤ 100 - tool: send_confirmation # 发送确认 # 4. 对话记录约束 - type: transcript max_turns: 10 # 最大对话轮数10轮tracked_metrics: # 追踪指标 # 1. 对话记录指标 - type: transcript metrics: - n_turns # 对话轮数 - n_toolcalls # 工具调用次数 - n_total_tokens # 总token消耗 # 2. 延迟指标 - type: latency metrics: - time_to_first_token # 首token时间 - output_tokens_per_sec # 输出速度tokens/秒 - time_to_last_token # 总完成时间三、评估研究 Agent 的方法研究 Agent 的主要任务是研究代理收集、综合和分析信息然后产生输出如答案或报告该 Agent 的评估无法类似于编码 Agent 单元测试那么确定研究 Agent 的输出质量的评估只能是相对任务进行判断主要是• 全面的搜索和研究• 有良好的且正确的来源并且不同领域的任务评估的标准也是不一样的例如市场研究和技术调研是需要不同的标准研究 Agent 评估面临独特挑战专家可能对综合是否全面存在分歧真实情况会随着参考内容不断变化而更长、更开放式的输出会为错误创造更多空间比较有名的测试基准是BrowseComp这样的基准测试 AI 代理能否在开放网络中找到针子——这些问题设计得容易验证但难以解决。BrowseComp 是 OpenAI 发布的一个 AI 代理浏览能力基准测试专门评估 AI 能否在开放网络中找到难以发现的信息。但是答案非常好验证一般都是一个词或短语方便开发者进行评估例如 “在悉尼歌剧院附近的植物园里有一座铜雕塑雕塑中的男人手里拿着什么物体”这个问题需要定位悉尼歌剧院附近的植物园找到该植物园的铜雕塑信息识别雕塑细节男人手持物体所以构建研究 Agent 的评估的一般方式是组合多种评分器类型基础性检查检查验证每一个声明都有来源支持吗覆盖性检查来源里面的关键信息都包含了吗都使用了吗来源质量检查引用的资料是否权威不能因为在网络搜索排名第一就使用它我们使用一个例子来说明这三种检查的主要方向研究Agent的评估四、评估计算机使用 Agent 的方法计算机使用 Agent 通过与人类相同的界面与软件交互• 屏幕截图• 鼠标点击• 键盘输入和滚动而不是通过 API 或代码执行和软件交互计算机 Agent 可以使用任何带有图像用户界面的程序那么评估这种类型的 Agent不仅仅是评估界面是否出现还要评估软件后面的逻辑是否正确执行例如WebArena 测试基于浏览器的任务使用 URL 和页面状态检查来验证代理是否正确导航同时对修改数据的任务进行后端状态验证确认订单确实已下单而不仅仅是确认页面出现了OSWorld 将此扩展到完整的操作系统控制评估脚本在任务完成后检查各种产物文件系统状态、应用程序配置、数据库内容和 UI 元素属性这一个设计思路非常重要引用官方原文浏览器使用代理需要在 token 效率和延迟之间取得平衡。基于 DOM 的交互执行速度快但消耗大量 token而基于屏幕截图的交互速度较慢但 token 效率更高。例如当要求 Claude 总结维基百科时从 DOM 中提取文本更高效。当在亚马逊上寻找新笔记本电脑保护套时截图更高效因为提取整个 DOM会消耗大量 token。在我们的 Claude for Chrome 产品中我们开发了评估方法来检查代理是否为每个场景选择了正确的工具。这使我们能够更快、更准确地完成基于浏览器的任务如果要开发一个浏览器的 Agent那么在执行的行为中可以考虑这个方向操作 DOM 还是网页截图如果网页的文本较多那么直接读取 DOM 元素回更加的高校并且信息密度很大无用的网页标签会大大减少如果网页的 DOM 很多文本信息非常的分散典型的就是电商网站商品推荐任务可以考虑截图截图会更高效和清晰五、总结无论智能体类型如何智能体行为在每次运行中都会变化这使得评估结果比最初看起来更难解释。每个任务都有其自身的成功率可能在某个任务上达到 90%在另一个任务上只有 50% 一个在某个评估运行中通过的任务在下一个运行中可能会失败。有时我们想要测量的是智能体在某个任务上成功的频率即试验的比例有两个指标有助于捕获这种细微的差异1、passk 衡量代理在 k 次尝试中至少获得一个正确解决方案的可能性。 随着 k 的增加passk 分数会上升——更多的“射门机会”意味着至少 1 次成功的几率更高。50% 的 pass1 分数意味着模型在评估中第一次尝试就成功完成了半数任务。在编程中我们通常最关心代理第一次就找到解决方案——pass1。在其他情况下只要有一个解决方案有效提出许多解决方案也是可以的。例如 pass3 的案例解释总共有 5 个任务在 3 次机会里面至少成功一次的有 3 个任务所以 pass3 60%可以注意到在任务三中Agent 在第四次机会执行成功了但是不作为 pass3 的判断标准里面了所以无效2、pass^k 衡量所有 k 次试验成功的概率。 随着 k 的增加pass^k 会下降因为要求在更多试验中保持一致性是一个更难达到的标准。如果你的代理每次试验的成功率为 75%而你运行了 3 次试验那么全部 3 次试验成功的概率是 (0.75)³ ≈ 42%。这个指标对于面向用户的代理尤其重要因为用户期望每次都能获得可靠的行为这两个指标可以作为捕获 Agent 的差异一个表示可用性passk说明 Agent 的潜力是多少给足够的机会它可以做些什么它的边界在哪里一个表示稳定性pass^k 说明Agent 有多可靠衡量这个 Agent 在任务中的靠谱性随着试验次数的增加passk 和 pass^k 出现分化。在 k1 时它们是相同的都等于每次试验的成功率。到 k10 时它们呈现出截然相反的情况passk 接近 100%而 pass^k 降至 0%。两种指标都很有用使用哪种取决于产品需求对于工具一个成功就很重要使用 passk对于代理一致性是关键使用 pass^k。AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】