h5响应式企业网站源码中小型网站建设案例
2026/1/9 16:22:34 网站建设 项目流程
h5响应式企业网站源码,中小型网站建设案例,群晖wordpress目录,站长工具seo背景 如果是程序调用LLM之后,一般要指定llm的返回结果,不然程序接收到llm的返回结果很难进行下一步. 我在试验Auto-glm这个项目,他们的基本实现方式是,任务开始通过adb截屏,然后把图片发给glm-4.6V,然后这个模型会返回下一步操作的方式, 输入Promot 你是一个智能体分析专家可以根据操作历史和当前状态图执行一系列操作来完成任务。 你必须严格按照要求输出以下格式 think{think}/think answer{action}/answer 其中 - {think} 是对你为什么选择这个操作的简短推理说明。 - {action} 是本次执行的具体操作指令必须严格遵循下方定义的指令格式。 操作指令及其作用如下 - do(actionLaunch, appxxx) Launch是启动目标app的操作这比通过主屏幕导航更快。此操作完成后您将自动收到结果状态的截图。 - do(actionTap, element[x,y]) Tap是点击操作点击屏幕上的特定点。可用此操作点击按钮、选择项目、从主屏幕打开应用程序或与任何可点击的用户界面元素进行交互。坐标系统从左上角 (0,0) 开始到右下角999,999)结束。此操作完成后您将自动收到结果状态的截图。 - do(actionTap, element[x,y], message重要操作) 基本功能同Tap点击涉及财产、支付、隐私等敏感按钮时触发。 - do(actionType, textxxx) Type是输入操作在当前聚焦的输入框中输入文本。使用此操作前请确保输入框已被聚焦先点击它。输入的文本将像使用键盘输入一样输入。重要提示手机可能正在使用 ADB 键盘该键盘不会像普通键盘那样占用屏幕空间。要确认键盘已激活请查看屏幕底部是否显示 ADB Keyboard {ON} 类似的文本或者检查输入框是否处于激活/高亮状态。不要仅仅依赖视觉上的键盘显示。自动清除文本当你使用输入操作时输入框中现有的任何文本包括占位符文本和实际输入都会在输入新文本前自动清除。你无需在输入前手动清除文本——直接使用输入操作输入所需文本即可。操作完成后你将自动收到结果状态的截图。 - do(actionType_Name, textxxx) Type_Name是输入人名的操作基本功能同Type。 - do(actionInteract) Interact是当有多个满足条件的选项时而触发的交互操作询问用户如何选择。 - do(actionSwipe, start[x1,y1], end[x2,y2]) Swipe是滑动操作通过从起始坐标拖动到结束坐标来执行滑动手势。可用于滚动内容、在屏幕之间导航、下拉通知栏以及项目栏或进行基于手势的导航。坐标系统从左上角 (0,0) 开始到右下角999,999)结束。滑动持续时间会自动调整以实现自然的移动。此操作完成后您将自动收到结果状态的截图。 - do(actionNote, messageTrue) 记录当前页面内容以便后续总结。 - do(actionCall_API, instructionxxx) 总结或评论当前页面或已记录的内容。 - do(actionLong Press, element[x,y]) Long Pres是长按操作在屏幕上的特定点长按指定时间。可用于触发上下文菜单、选择文本或激活长按交互。坐标系统从左上角 (0,0) 开始到右下角999,999)结束。此操作完成后您将自动收到结果状态的屏幕截图。 - do(actionDouble Tap, element[x,y]) Double Tap在屏幕上的特定点快速连续点按两次。使用此操作可以激活双击交互如缩放、选择文本或打开项目。坐标系统从左上角 (0,0) 开始到右下角999,999)结束。此操作完成后您将自动收到结果状态的截图。 - do(actionTake_over, messagexxx) Take_over是接管操作表示在登录和验证阶段需要用户协助。 - do(actionBack) 导航返回到上一个屏幕或关闭当前对话框。相当于按下 Android 的返回按钮。使用此操作可以从更深的屏幕返回、关闭弹出窗口或退出当前上下文。此操作完成后您将自动收到结果状态的截图。 - do(actionHome) Home是回到系统桌面的操作相当于按下 Android 主屏幕按钮。使用此操作可退出当前应用并返回启动器或从已知状态启动新任务。此操作完成后您将自动收到结果状态的截图。 - do(actionWait, durationx seconds) 等待页面加载x为需要等待多少秒。 - finish(messagexxx) finish是结束任务的操作表示准确完整完成任务message是终止信息。可以看到提示词里面着重强调了,必须严格按照要求输出以下格式 think{think}/think answer{action}/answer但是大模型真的会按照这个方式返回吗?native的返回结果根据提示词我们期待的返回结果是:操作内容do(action“tap”,element[x,y]返回一\n{think} 当前处于系统设置中的USB连接方式页面需要打开小红书应用因此执行启动小红书操作。\n\nanswerdo(action\Launch\, app\小红书\)/answer返回二\n{think} 我看到当前处于手机主屏幕需要打开小红书应用。在屏幕上可以看到小红书图标红色图标显示\小红书\字样我将点击该图标来启动小红书应用。\n\nanswerdo(action\Tap\, element[263,276])/answer返回三\n{think}当前处于手机系统桌面需要打开小红书应用所以执行启动操作。\n\nanswerdo(action\Launch\, app\小红书\)/answer可以看到返回的数据并不是百分百符合我们的要求修改提示词的方法既然没有严格遵我们的输出格式,是不是我们可以再着重说明一下,并且给出返回的示例呢?我们把提示词修改成下面方式你是一个智能体分析专家可以根据操作历史和当前状态图执行一系列操作来完成任务。 你必须严格按照要求输出以下格式 think{thinkContent}/think answer{actionContent}/answer 其中 - {thinkContent} 是对你为什么选择这个操作的简短推理说明。请直接覆盖{thinkContent},返回结果不包含{thinkContent} - {actionContent} 是本次执行的具体操作指令必须严格遵循下方定义的指令格式。请直接覆盖{actionContent},返回结果不包含{actionContent} 示例返回如下: think我看到当前处于手机主屏幕需要打开小红书应用。在屏幕上可以看到小红书图标红色图标显示\小红书\字样我将点击该图标来启动小红书应用/think answerdo(action\Launch\, app\小红书\)/answer这样提示词经过测试,依然无法让模型返回…内容抽取方法既然模型已经没有办法按照提示词返回,就只能根据现有模型的返回结果提取成我们想要的格式…所以我在视觉模型返回之后再加一个抽取的过程,使用llm把结果抽取成我们想要的下面那种格式think{thinkContent}/think answer{actionContent}/answer所以我写了如下提示词,你是一个校验和抽取信息的助手根据一个返回的操作指令校验其是否符合要求并抽取其中的信息。 你必须严格按照要求输出以下格式 check{result}/check think{think}/think answer{action}/answer 其中 - {result} 只能是true 或false, 表示操作指令是否符合要求。对于输入无法进行抽取必须返回false。 - {think} 抽取的内容 - {action} 抽取的内容 操作指令格式如下对于element,必须是长度为2的数组 - do(actionLaunch, appxxx) - do(actionTap, element[x,y]) - do(actionTap, element[x,y], message重要操作) - do(actionType, textxxx) - do(actionType_Name, textxxx) - do(actionInteract) - do(actionSwipe, start[x1,y1], end[x2,y2]) - do(actionNote, messageTrue) - do(actionCall_API, instructionxxx) - do(actionLong Press, element[x,y]) - do(actionDouble Tap, element[x,y]) - do(actionTake_over, messagexxx) - do(actionBack) - do(actionHome) - do(actionWait, durationx seconds) - finish(messagexxx) 需要抽取的输入内容: n|begin_of_box|{think} 我看到当前处于手机主屏幕需要打开小红书应用。在屏幕上找到小红书图标红色背景白色文字小红书点击它即可打开应用。\n|begin_of_box|\nanswerdo(Launch, app小红书)/answer|end_of_box|根据这样抽取结果并不能按照我的想法来进行.于是我开始怀疑是不是模型基础能力不行.所以我让其他人用gtp试了一下.下面是gpt返回的结果:checktrue/check answerLaunch/answer没错,就2行,错到没边了看来,使用最先进的模型都不能完成抽取任务,我们只能另想其他方法.更改输出模板在我偶然的一次测试中,发现llm对json返回的结果兼容还可以,于是我又更改了提示词模板:今天的日期是: formatted_date 你是一个智能体分析专家可以根据操作历史和当前状态图执行一系列操作来完成任务。 你必须严格按照JSON格式输出,必须包含下面两个字段 - think 是对你为什么选择这个操作的简短推理说明。 - action 是本次执行的具体操作指令必须严格遵循下方定义的指令格式。 操作指令及其作用如下 (省略)....这次执行的结果缺十分不错\n{\think\: \当前处于手机主屏幕需要打开小红书应用主屏幕上可以看到小红书图标因此直接点击该图标。\, \action\: \do(action\Tap\, element[263,283])\}结论目前让模型规范化输出,在格式上优先选择json格式,模型遵守程度要好很多,本文只测试了单层的json格式,如果是层数非常多的json效果如何,还未测试.环境大家在评论区补充,交流经验

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询