深圳市住房和建设局网站下载收录优美图片手机版
2026/2/13 4:49:42 网站建设 项目流程
深圳市住房和建设局网站下载,收录优美图片手机版,新网站大量收录好不好,绍兴柯桥区城乡建设局网站大语言模型发展到今天#xff0c;写提示词不仅是个体力活#xff0c;还是一个技术活。提示词的措辞稍微改一下#xff0c;性能波动 20-50% 是常有的事。那能不能让 LLM 自己改进提示词呢#xff1f; 本文主要讲的就是这个#xff0c;一个处理复杂推理任务的 Agent#x…大语言模型发展到今天写提示词不仅是个体力活还是一个技术活。提示词的措辞稍微改一下性能波动 20-50% 是常有的事。那能不能让 LLM 自己改进提示词呢本文主要讲的就是这个一个处理复杂推理任务的 Agent经过几轮自动迭代准确率从 34% 飙到 97%相对提升 184%。下面是完整的步骤从环境搭建到代码实现还包含了优缺点和适用场景。什么是自动提示词优化自动提示词优化有时也叫 Automatic Prompt EngineeringAPE核心思路是把写提示词当成优化问题来解。流程大概是这样先拿一个初始提示词哪怕写得很一般在一批标注好的样本上跑一遍用评分函数精确匹配、BLEU、LLM-as-judge 之类的算个分然后让 LLM 生成新的候选提示词挑表现好的继续迭代直到分数不再涨为止。2023 年的论文 “Automatic Prompt Optimization with Gradient-Free Methods” 把这套方法讲得比较系统。从工具层面将DSPy、LangChain 的 PromptOptimizer 都能干这个活不过有一个专门的库叫 OPIK 。OPIK MetaPromptOptimizer 的特点OPIK 这套东西比较吸引人的是完全开源Apache 2.0 协议商用也不花钱可以纯本地跑Ollama、LM Studio、任何 OpenAI 兼容的接口都行自带追踪仪表板功能类似 LangSmith 但是确是免费API 设计简单一个类就能搞定优化流程评估指标随便你定义只要能写成代码就行。环境搭建创建虚拟环境python -m venv opik-apo source opik-apo/bin/activate # Windows: opik-apo\Scripts\activate pip install opik[all] datasets sentence-transformers本地 LLM 安装可选但推荐# Example with Ollama ollama pull llama3.2:8b-instruct-qat ollama serve准备评估数据集不需要太多数据20 到 100 条高质量样本就够了。下面是个 GSM8K 风格的 JSONL 例子保存成eval_data.jsonl{question: Janets ducks lay 16 eggs per day. She eats 3 for breakfast, gives 8 to friends, and her bakery uses the rest. How many eggs does the bakery receive?, answer: 5} {question: A store sells apples for $2 each or 6 for $10. How much do you save per apple by buying 6?, answer: 0.33}完整代码import opik from opik import track from opik.opimization import MetaPromptOptimizer from opik.opimization.evaluation_metrics import LevenshteinRatio from opik.integrations.langchain import OpikTracer from langchain_community.llms import Ollama from langchain.prompts import PromptTemplate import json # 1. 初始化 Opik默认本地 opik_client opik.Opik() # 2. 加载评估数据集 def load_dataset(patheval_data.jsonl): data [] with open(path) as f: for line in f: item json.loads(line) data.append({input: item[question], expected: item[answer]}) return data eval_dataset load_dataset() # 3. 定义你的基础提示词模板 initial_prompt You are an expert assistant. Your task is answer questions accurately and concisely. Consider the context carefully before responding. Question: {input} Answer: prompt_template PromptTemplate.from_template(initial_prompt) # 4. 创建 LLM本地或 OpenAI llm Ollama(modelllama3.2:8b-instruct-qat, temperature0.2) # llm ChatOpenAI(modelgpt-4o-mini, temperature0.2) # for cloud # 5. 定义你想要优化的链 track def math_chain(question): prompt prompt_template.format(inputquestion) response llm.invoke(prompt) return response.strip() # 6. 定义评估函数 def evaluation_function(task): expected task[expected] generated math_chain(task[input]) score LevenshteinRatio()(expected, generated) return score # 7. 运行优化器 optimizer MetaPromptOptimizer( taskYou are an expert at solving math word problems., evaluation_dataseteval_dataset, evaluation_functionevaluation_function, llmllm, n_iterations5, # 通常 3-7 次就足够了 population_size10 ) best_prompt optimizer.run() print(\n BEST PROMPT FOUND \n) print(best_prompt)运行脚本python optimize_prompt.py跑完 5 轮迭代后打开 http://localhost:5173 就能看到仪表板每个候选提示词的得分、最终选中的版本都在上面。优化效果示例优化前的提示词34% 精确匹配You are an expert assistant. Your task is answer questions accurately and concisely. Consider the context carefully before responding.优化后97% 精确匹配优缺点总结优点性能提升幅度可观50-200% 的相对改进并不罕见。整个过程完全可复现每一轮迭代都有日志记录方便审计。本地运行意味着初始配置之后就不再产生 Token 费用。也不依赖梯度任何黑盒 LLM 都能用。迁移到新任务也简单改几个参数就行。局限性评估数据集的质量至关重要如果数据不行优化出来的提示词也不会好到哪去就是典型的 garbage in, garbage out本地 LLM 生成候选提示词的速度可能偏慢小数据集上容易过拟合模型可能只是记住了答案而非真正学会解题优化出来的提示词有时候又长又怪虽然效果好但可读性堪忧。结论OPIK 的 MetaPromptOptimizer 让自动提示词变得很简单拿一个勉强能用的提示词半小时内就能把它调成接近 SOTA 水平的 one-shot Agent省下原本要花几周手动迭代的时间。找一个现有的 Agent攒 30 条标注样本跑一遍上面的脚本看准确率曲线往上走就对了。提示词工程的下一步不是人写出更好的提示词而是让系统替人写。地址https://avoid.overfit.cn/post/be1860b7176b474b9389d88501402048作者Minervee

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询