2026/1/10 11:33:01
网站建设
项目流程
网页制作站点,多用户商城网站建设,wordpress上传ftp密码,宛城区微网站建设Fara-7B 是微软的第一个 代理小语言模型 #xff08;SLM#xff09; 专门设计用于计算机使用。Fara-7B 仅具有70亿个参数#xff0c;是一种超紧凑的计算机使用代理#xff08;CUA#xff09;#xff0c;在其尺寸类别内实现了最先进的性能#xff0c;并可与更大、更资源密…Fara-7B是微软的第一个代理小语言模型 SLM专门设计用于计算机使用。Fara-7B 仅具有70亿个参数是一种超紧凑的计算机使用代理CUA在其尺寸类别内实现了最先进的性能并可与更大、更资源密集型代理系统竞争。尝试在本地使用 Fara-7B如下所示请参见 安装 有关 Windows 的详细指示或通过 Magentic-UI# 1. Clone repository git clone https://github.com/microsoft/fara.git cd fara # 2. Setup environment python3 -m venv .venv source .venv/bin/activate pip install -e . playwright install然后在一个过程中托管模型:vllm serve microsoft/Fara-7B --port 5000 --dtype auto然后您可以用以下方式迭代查询它:fara-cli --task whats the weather in new york now要尝试在 Magentic-UI 中使用 Fara-7B请按照以下说明 Magentic-UI Fara-7B 。你需要像以前一样为模型提供服务但你可以使用Magentic-UI而不是fara-cliMagentic-UI有一个漂亮的UI见下面的视频演示。注意事项:如果您使用的是Windows我们强烈建议使用WSL2Linux的Windows子系统。请参阅 安装 部分中的 Windows 说明。你可能需要做--tensor-parallel-size 2如果内存不足使用vllm命令购物fara_xbox_多转-3.mp4GitHub问题fara_github_demo.mp4配有奶酪的说明驾驶方向_cheese-1_修订版.mp4Fara-7B的独特之处与传统的基于文本的聊天模式不同Fara-7B利用计算机界面——鼠标和键盘——代表用户执行多步任务。该模式:视觉操作通过感知网页并执行滚动、输入和直接点击预测坐标等操作而不使用无障碍树或单独的解析模型支持设备端部署由于其紧凑的7B参数大小减少了延迟并提高了隐私性因为用户数据保持在本地高效完成任务平均每项任务只有~16个步骤而可比模型为~41个Fara-7B 是使用一种基于 Magentic-One 多代理框架的新型合成数据生成管道进行训练的具有 14.5 万条轨迹涵盖各种网站、任务类型和难度级别。该模型基于 Qwen2.5-VL-7B 并通过有监督微调进行训练。关键能力Fara-7B可以自动化日常的网络任务包括:搜索信息和总结结果填写表格和管理账户预订旅行、电影票和餐厅预订在各零售商之间购物和比较价格查找招聘信息和房地产信息演出亮点Fara-7B在多个Web代理基准测试中实现了最先进的结果性能优于同类大小的模型和更大的系统:模型参数WebVoyager在线M2WDeepShopWebTailBenchSoM代理人SoM代理GPT-4o-0513-90.657.749.160.4SoM代理o3-mini-79.355.449.752.7SoM代理GPT-4o-65.134.616.030.8GLM-4.1V-9B-思考9B66.833.932.022.4计算机使用模型OpenAI计算机使用预览-70.942.924.725.7UI-TARS-1.5-7B7B66.431.311.619.5法拉-7B7B73.534.126.238.4表:在线代理评估结果显示了四个网络基准的成功率%。结果平均为3次运行。WebTailBench:现实世界Web任务的新基准我们正在发布WebTailBench一个新的评估基准专注于11种现实世界任务类型这些任务类型在现有基准中代表性不足或缺失。该基准包括609个不同类别的任务前8个部分测试单一技能或目标通常在单个网站上其余3个评估更困难的多步骤或跨站点任务。WebTailBench 详细结果任务分段任务SoM GPT-4o-0513SoM o3-miniSoM GPT-4oGLM-4.1V-9BOAI 应用程序使用UI-TARS-1.5法拉-7B单点任务购物5662.571.438.131.042.341.152.4航班5160.139.211.110.517.610.537.9酒店5268.656.431.419.926.935.353.8餐馆5267.959.647.432.135.922.447.4活动8070.462.941.726.330.49.636.3票务5758.556.737.435.749.730.438.6房地产4834.017.420.116.09.09.723.6工作/职业生涯5049.344.032.722.720.720.728.0多步骤任务购物清单2项5166.062.717.07.834.020.949.0比较购物5767.359.127.522.81.28.832.7组成任务5551.539.426.717.010.39.123.0全部的宏观平均值60959.751.730.122.025.319.938.4微观平均值60960.452.730.822.425.719.538.4表:所有11个段WebTailBench结果的细目。成功率%是3次独立运行的平均值。Fara-7B在所有任务类别的计算机使用模型中取得了最高的性能。即将推出:LLM-作为法官评估的任务验证管道WebTailBench的官方人工注释与BrowserBase合作评价基础设施我们的评估设置具有以下优势:剧作家- 一个跨浏览器自动化框架可以复制浏览器环境抽象Web代理接口- 允许将任何模型从任何源集成到评估环境中Fara-Agent 类- 运行 Fara 模型的参考实现注意Fara-7B 是一个实验性发布旨在邀请社区进行实际操作和反馈。我们建议在沙盒环境中运行它监控其执行并避免敏感数据或高风险域。安装Linux下面的说明适用于Linux系统有关Windows的说明请参阅下面的Windows部分。使用 pip 安装包并使用 Playwright 设置环境:# 1. Clone repository git clone https://github.com/microsoft/fara.git cd fara # 2. Setup environment python3 -m venv .venv source .venv/bin/activate pip install -e .[vllm] playwright install注意:如果您计划只使用Azure Foundry托管您可以跳过[vllm]然后就做pip install -e .Windows对于Windows我们强烈建议使用WSL2适用于Linux的Windows子系统来提供类似Linux的环境。然而如果您更喜欢在Windows上原生运行请遵循以下步骤:# 1. Clone repository git clone https://github.com/microsoft/fara.git cd fara # 2. Setup environment python3 -m venv .venv .venv\Scripts\activate pip install -e . python3 -m playwright install托管模型推荐入门最简单的方法是使用 Azure Foundry 托管它不需要 GPU 硬件或模型下载。或者如果您有可用的 GPU 资源您可以使用 vLLM 自托管。Azure铸造厂托管推荐在 Azure Foundry 上部署 Fara-7B无需下载权重或管理 GPU 基础设施。设置:在Azure Foundry上部署Fara-7B模型并获取终端URL和API密钥然后创建一个端点配置JSON文件例如azure_foundry_config.json):{ model: Fara-7B, base_url: https://your-endpoint.inference.ml.azure.com/, api_key: YOUR_API_KEY_HERE }然后您可以使用此端点配置运行Fara-7B。运行Fara代理:fara-cli --task how many pages does wikipedia have --endpoint_config azure_foundry_config.json [--headful]注意:您还可以用参数指定端点配置。--base_url [your_base_url] --api_key [your_api_key] --model [your_model_name]而不是使用配置JSON文件。注意:如果您看到错误fara-cli命令找不到请尝试:python -m fara.run_fara --task what is the weather in new york now仅此而已无需下载GPU或模型。使用vLLM或LM Studio/Ollama进行自助托管如果您可以访问GPU资源您可以使用vLLM自托运行Fara-7B。这需要一台具有足够VRAM的GPU机器例如24GB或更多。仅在Linux上:所需要的只是运行以下命令来启动vLLM服务器:vllm serve microsoft/Fara-7B --port 5000 --dtype auto对于量化模型或较低的VRAM GPU请参见 HuggingFace上的Fara-7B GGUF 。对于Windows/Mac vLLM 本机上不受支持。您可以在Windows上使用 WSL2 运行上述命令或如下所述的LM Studio/Ollama。否则您可以使用 LM Studio 或 Ollama 在本地托管模型。我们目前推荐以下GGUF版本的我们的模型 HuggingFace上的Fara-7B GGUF 用于 LM Studio 或 Ollama。选择适合您的GPU的最大型号。请确保上下文长度设置为至少15000个令牌温度设置为0以获得最佳效果。然后你可以指着本地服务器运行Fara-7B:运行测试脚本以查看Fara的运行情况:fara-cli --task what is the weather in new york now如果您没有使用vLLM来托管请指定正确的--base_url [your_base_url] --api_key [your_api_key] --model [your_model_name]如果你看到一个错误那么fara-cli命令找不到请尝试:python -m fara.run_fara --task what is the weather in new york now可重复性我们提供了一个框架webeval/在WebVoyager和OnlineMind2Web上重现我们的结果。由于日常变化实时网站上的代理评估面临独特的挑战。我们实施了几项措施以确保可靠和可比的评估:BrowserBase Integration我们使用 BrowserBase 来管理浏览器会话托管从而实现可靠的浏览器实例管理。时间敏感的任务更新在像 WebVoyager 这样的基准测试中任务可能会变得过时或不可能。我们从最初的WebVoyager基准测试中删除了约48个不可能完成的任务更新了约50项任务并设定了未来日期以确保它们能够实现示例从2024年1月1日至1月4日在巴厘岛搜索酒店→从2026年1月1日至1月4日搜索巴厘岛酒店我们更新的WebVoyager基准可在以下网址获取:webeval/data/webvoyager/WebVoyager_data_08312025.jsonl环境错误处理浏览器错误连接丢失、页面超时得到了健壮的处理当环境错误发生时轨迹最多重试5次完整但不正确的轨迹永远不会被重试每次重试都从一个新的浏览器会话开始没有保留状态步骤预算每个轨迹在所有在线基准上最多限制为100个动作。超过这个预算而不选择停止的轨迹被认为是错误的。WebEval包安装conda create --name fara_webeval python3.12 conda activate fara_webeval # Install fara package pip install -e . # Install autogen submodule git submodule update --init --recursive cd autogen/python/packages pip install -e autogen-core pip install -e autogen-ext # Install webeval cd webeval pip install -e . # Install playwright playwright install运行评估导航到脚本目录:cd webeval/scripts确保您在中设置了有效的 OpenAI GPT-4o 端点endpoint_configs_gpt4o/dev为了以法官身份运行WebVoyager LLM选项1:自托管vLLMpython webvoyager.py --model_url /path/where/you/want/to/download/model/ --model_port 5000 --eval_oai_config ../endpoint_configs_gpt4o/dev/ --out_url /path/to/save/eval/files --device_id 0,1 --processes 1 --run_id 1 --max_rounds 100 python om2w.py --model_url /path/where/you/want/to/download/model/ --model_port 5000 --eval_oai_config ../endpoint_configs_o4/dev/ --eval_model o4-mini --out_url /path/to/save/eval/files --device_id 0,1 --processes 1 --run_id 1 --max_rounds 100选项2:Azure Foundry部署部署 Fara-7B 到 Foundry 端点 然后在 JSON 中放置端点 URL 和密钥endpoint_configs/:python webvoyager.py --model_endpoint ../../endpoint_configs/ --eval_oai_config ../endpoint_configs_gpt4o/dev/ --out_url /path/to/save/eval/files --processes 1 --run_id 1_endpoint --max_rounds 100 python om2w.py --model_endpoint ../../endpoint_configs/ --eval_oai_config ../endpoint_configs_o4/dev/ --eval_model o4-mini --out_url /path/to/save/eval/files --processes 1 --run_id 1_endpoint --max_rounds 100注释我们使用与WebVoyager相同的LLM作为评判的提示和模型GPT-4o因此有--eval_oai_config论点放--browserbase用于浏览器会话管理需要导出API密钥和项目ID环境变量由于已知问题避免将单个vLLM部署与超过~10个并发进程过载参见调试输出。fara/webeval/scripts/stdout.txt评估结果分析评价产出结构评估结果存储在--out_url在以下组织的文件夹中:型号名称资料组用户名运行ID示例路径:/runs/WebSurfer-fara-100-max_n_images-3/fara-7b/username/WebVoyager_WebVoyager_data_08312025.jsonl/run_id每个评估文件夹包含:gpt_eval/- LLM作为法官的评估结果traj/-按任务划分的轨迹子目录包括:*-final_answer.json例如Amazon--1_final_answer.json) -no_answer指示堕胎或步骤预算超出scores/*_eval.json- LLM法官评分gpt_eval.json对于WebVoyager来说WebJudge_Online_Mind2Web_eval-3.json用于在线-Mind2Webweb_surfer.log-行动历史和错误screenshot_X.png- 在每次操作前捕获的屏幕截图times.json-包含任务的开始和结束时间core.log-包含高级日志如轨迹是否需要启动或已经缓存/完成、评估分数、持续时间和遇到的错误运行分析使用分析笔记本计算指标:cd webeval/scripts/analyze_eval_results/ jupyter notebook analyze.ipynb剧本:识别执行中期中止的轨迹和诊断原因计算非中止轨迹的平均分数区分中止的轨迹采样过程中的错误和已完成的轨迹终止调用或超出步骤预算要重新运行失败的任务请使用相同的命令再次执行评估脚本run_id和username-它会跳过非中止的任务。WebVoyager GPT验证结果示例web_surfer.log操作历史记录示例引用如果您在研究中使用Fara-7B请使用以下BibTeX条目。article{fara7b2025, title{Fara-7B: An Efficient Agentic Model for Computer Use}, author{Awadallah, Ahmed and Lara, Yash and Magazine, Raghav and Mozannar, Hussein and Nambi, Akshay and Pandya, Yash and Rajeswaran, Aravind and Rosset, Corby and Taymanov, Alexey and Vineet, Vibhav and Whitehead, Spencer and Zhao, Andrew}, journal{arXiv:2511.19663}, year{2025} }分享文件资源大全链接https://pan.xunlei.com/s/VObmBFFa7Q1PsEznMCr3rD0pA1提取码3x62复制这段内容后打开迅雷查看更方便