智能化网站建设购物网站模板代码下载-新星市网站建设公司-Seo优化

智能化网站建设购物网站模板代码下载

2026/3/19 11:58:33 网站建设项目流程

智能化网站建设,购物网站模板代码下载,cpa之家 app推广平台,win2003VPS装网站Playwright03-CDP/WebSocket/PlayWrightplaywright自动化开发记录#xff0c;学习BrowserUse的时候涉及到playwright知识点1-CDP/WebSocket/PlayWright对比我在看源码的时候#xff0c;最开始使用简单demo进行学习的时候还好#xff0c;但是一复杂起来#xff0c;我就理不清…Playwright03-CDP/WebSocket/PlayWrightplaywright自动化开发记录学习BrowserUse的时候涉及到playwright知识点1-CDP/WebSocket/PlayWright对比我在看源码的时候最开始使用简单demo进行学习的时候还好但是一复杂起来我就理不清CDP/WebSocket/PlayWright这三者之间的关系其实底层还是我不知道我只是在照猫画虎我不理解这件事情的内核总结1browser_playwright p.chromium.launch2browser_ws p.chromium.connect_over_cdp1-PlayWright简单示例1-PlayWright打开网址总结【sync_playwright()】代表真正的【浏览器操作对象】这个【浏览器操作对象】使用了【chromium】浏览器进行打开并访问了【baidu网址】1再递进一步理解如果我不使用【sync_playwright()】还可以打开浏览器吗—OfCourseNot2再递进一步理解我直接使用webSocket进行链接chrome可以直接访问吗—OfCourseNot浏览器都没有打开哪来的webSocket的地址你又怎么连接上去3再递进一步理解那就是说即使我用webSocket去链接背后也必须有一个playwright在运行importtimefromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:# 1. 启动浏览器默认 headlessTrue想看画面可传 headlessFalsebrowser_playwrightp.chromium.launch(headlessFalse)# 2. 新建标签页pagebrowser_playwright.new_page()# 3. 打开目标网址web_urlhttps://www.baidu.com/page.goto(web_url,timeout60000)print(浏览器成功打开浏览器,web_url)# 4. 简单等待方便肉眼观察time.sleep(3)# 5. 关闭浏览器browser.close()2-webSocket通讯-Http版本和webSocket的版本返回的结果是一样的importtimefromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:# 使用Http方式连接上Chrome进行调试browser_info_wsp.chromium.connect_over_cdp(http://localhost:9222)browser_contextsbrowser_info_ws.contexts[0]print(browser_contexts响应数据结构)print(browser_contexts)print(browser_contexts响应数据结构\n)default_ctx_pagebrowser_contexts.pages[0]# 默认上下文里已有的页面print(默认页面标题,default_ctx_page.title())通讯结果browser_contexts响应数据结构 BrowserContext browserBrowser typeBrowserType namechromium executable_path/Users/rong/Library/Caches/ms-playwright/chromium-1200/chrome-mac-x64/Google Chrome for Testing.app/Contents/MacOS/Google Chrome for Testing version143.0.7499.4 browser_contexts响应数据结构默认页面标题百度一下你就知道3-webSocket通讯-WS版本和http的版本返回的结果是一样的importtimeimportrequestsfromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:# 1-获取 WebSocket URLresprequests.get(http://localhost:9222/json/version)ws_urlresp.json()[webSocketDebuggerUrl]# 2-使用WebSocket方式连接上Chrome进行调试browser_info_wsp.chromium.connect_over_cdp(ws_url)browser_contextsbrowser_info_ws.contexts[0]print(browser_contexts响应数据结构)print(browser_contexts)print(browser_contexts响应数据结构\n)default_ctx_pagebrowser_contexts.pages[0]# 默认上下文里已有的页面print(默认页面标题,default_ctx_page.title())响应结果browser_contexts响应数据结构BrowserContext browserBrowsertypeBrowserType namechromium executable_path/Users/rong/Library/Caches/ms-playwright/chromium-1200/chrome-mac-x64/Google ChromeforTesting.app/Contents/MacOS/Google ChromeforTestingversion143.0.7499.4browser_contexts响应数据结构默认页面标题百度一下你就知道2-WebSocket简单示例1-playWright浏览器操作为了把【playWright浏览器操作】和【webSocket通讯】拆开我开两个进程进行演示打开debug模式并让浏览器打开网页后就一直不关闭浏览器始终不关闭这样就可以用另一个进程去测试webSocket的连接通讯importtimefromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:# 1. 启动浏览器并强制开启远程调试端口browser_playwrightp.chromium.launch(headlessFalse,args[--remote-debugging-port9222]# 开启 CDP 端口)# 2. 新建标签页pagebrowser_playwright.new_page()# 3. 打开目标网址web_urlhttps://www.baidu.com/page.goto(web_url,timeout60000)print(浏览器成功打开浏览器,web_url)# 4. 简单等待方便肉眼观察time.sleep(30000000)# 5. 关闭浏览器# browser.close()2-webSocket纯血版-通讯此时使用的就是纯血版本的webSocket的工具类和chrome进行通讯操作都是基于命令行的那种importtimefromplaywright.sync_apiimportsync_playwrightimportsysimportosfromplaywright_websocket_utilimportPlaywrightWebSocketUtil# 1. 获取 WebSocket URLimportrequests resprequests.get(http://localhost:9222/json/version)ws_urlresp.json()[webSocketDebuggerUrl]# 2. 创建 WebSocket 工具实例ws_utilPlaywrightWebSocketUtil(ws_url)# 3. 连接到浏览器ifws_util.connect():# 4. 发送 CDP 命令-视图对象命令行操作browser_info_wsws_util.get_browser_info()print(browser_info_ws)# 5. 获取所有目标-视图对象命令行操作targetsws_util.get_targets()print(targets)# 6. 断开连接ws_util.disconnect()3-webSocket纯血版-连接代码使用原生的webSocket连接以后就没有办法返回【Broswer】或者【Pages】这种可视化的数据对象了只能通用命令行返回请求的通讯对象asyncdef_connect_and_listen(self): 连接并持续监听消息 try:# 注意这是使用的是原生的websocket进行网络连接self.websocketawaitwebsockets.connect(self.ws_url)self.connectedTrueprint(f成功连接到 WebSocket:{self.ws_url})# 持续监听消息awaitself._listen_for_messages()exceptExceptionase:print(f连接 WebSocket 失败:{e})self.connectedFalse4-能不能全都要可以那就是我封装一个工具类1即可以使用使用webSocket进行连接-绕过一些验证码之类的操作2又可以直接操作浏览器并返回Browser和Page等可视化视图对象1-使用websocket进行链接可以【web_util】进行命令行操作importjsonfromplaywright_websocket_utilimportPlaywrightCDPConnector# 使用上下文管理器withPlaywrightCDPConnector(debug_port9222)ascdp_util:# 通过 WebSocket 连接ifcdp_util.connect_via_websocket():browser_info_wscdp_util.get_browser_info_via_websocket()print(browser_info_ws)# 2-websocket命令行操作ws_utilcdp_util.ws_util# 获取浏览器信息browser_info_wsws_util.get_browser_info()print(浏览器信息:,json.dumps(browser_info_ws.get(result,browser_info_ws),indent2,ensure_asciiFalse))# 获取所有目标targetsws_util.get_targets()print(可用目标数量:,len(targets.get(result,{}).get(targetInfos,[])))# 创建新页面new_targetws_util.create_target(https://www.baidu.com)print(创建新页面结果:,json.dumps(new_target,indent2,ensure_asciiFalse))2-使用playwright进行链接可以拿到【Browser对象】对象withPlaywrightCDPConnector(debug_port9222)ascdp_util:# 1-通过 PlayWright 连接同时具备websocket和playwright两种能力ifcdp_util.connect_via_playwright():# 1.1-playwright直接获取视图对象对象操作browser_infocdp_util.browserprint(browser_info)default_pagebrowser_info.contexts[0].pages[0]print(默认页面标题,default_page.title())# 1.2-playwright直接获取视图对象对象操作new_pagebrowser_info.new_page()new_page.goto(https://www.json.cn/,timeout60000)3-工具类代码importasyncioimportjsonimportwebsocketsfromtypingimportOptional,Dict,Any,Callableimportthreadingimporttimeimportqueuefromplaywright.sync_apiimportsync_playwright,Browser,BrowserContext,PageclassPlaywrightWebSocketUtil: Playwright WebSocket 工具类用于通过 WebSocket 直接连接和操作浏览器 def__init__(self,ws_url:str):self.ws_urlws_url self.websocket:Optional[websockets.WebSocketClientProtocol]Noneself.message_id0self.loopNoneself.threadNoneself.connectedFalseself.response_futures{}self.event_handlers{}defconnect(self)-bool: 在新线程中连接到 WebSocket 服务器 defrun_loop():self.loopasyncio.new_event_loop()asyncio.set_event_loop(self.loop)self.loop.run_until_complete(self._connect_and_listen())self.threadthreading.Thread(targetrun_loop,daemonTrue)self.thread.start()# 等待连接完成for_inrange(50):# 最多等待5秒ifself.connected:returnTruetime.sleep(0.1)returnFalseasyncdef_connect_and_listen(self): 连接并持续监听消息 try:# 这是使用的是原生的websocket进行网络连接self.websocketawaitwebsockets.connect(self.ws_url)self.connectedTrueprint(f成功连接到 WebSocket:{self.ws_url})# 持续监听消息awaitself._listen_for_messages()exceptExceptionase:print(f连接 WebSocket 失败:{e})self.connectedFalseasyncdef_listen_for_messages(self): 持续监听 WebSocket 消息 try:whileTrue:responseawaitself.websocket.recv()response_datajson.loads(response)# 检查是否是某个请求的响应msg_idresponse_data.get(id)ifmsg_idandmsg_idinself.response_futures:futureself.response_futures.pop(msg_id)self.loop.call_soon_threadsafe(future.set_result,response_data)else:# 处理事件消息awaitself._handle_event_message(response_data)exceptwebsockets.exceptions.ConnectionClosed:print(WebSocket 连接已关闭)self.connectedFalseexceptExceptionase:print(f监听消息时出错:{e})self.connectedFalseasyncdef_handle_event_message(self,message:dict): 处理事件消息 Args: message: 收到的消息 methodmessage.get(method)ifmethodandmethodinself.event_handlers:handlerself.event_handlers[method]ifasyncio.iscoroutinefunction(handler):awaithandler(message)else:handler(message)defregister_event_handler(self,method:str,handler:Callable): 注册事件处理器 Args: method: 事件方法名 handler: 处理函数 self.event_handlers[method]handlerdefdisconnect(self): 断开 WebSocket 连接 ifself.websocketandself.loopandself.connected:asyncio.run_coroutine_threadsafe(self.websocket.close(),self.loop)self.connectedFalsedefsend_command(self,method:str,params:Dict[str,Any]None,session_id:strNone,timeout:float5.0)-Dict[str,Any]: 发送命令到 WebSocket 服务器 Args: method: CDP 方法名 params: 参数字典 session_id: 会话ID用于特定目标的命令 timeout: 超时时间秒 Returns: 响应结果 ifnotself.connectedornotself.websocketornotself.loop:raiseException(WebSocket未连接)self.message_id1message{id:self.message_id,method:method}ifparams:message[params]paramsifsession_id:message[sessionId]session_id# 创建 Future 对象用于接收响应futureself.loop.create_future()self.response_futures[self.message_id]future# 发送消息asyncio.run_coroutine_threadsafe(self.websocket.send(json.dumps(message)),self.loop)# 等待响应try:# 使用 asyncio.wait_for 来处理超时resultasyncio.run_coroutine_threadsafe(asyncio.wait_for(future,timeout),self.loop)returnresult.result()exceptExceptionase:print(f等待响应失败:{e})ifself.message_idinself.response_futures:delself.response_futures[self.message_id]return{error:str(e)}defget_browser_info(self)-Dict[str,Any]: 获取浏览器信息 Returns: 浏览器版本信息 returnself.send_command(Browser.getVersion)defget_targets(self)-Dict[str,Any]: 获取所有目标页面、iframe等 Returns: 目标列表 returnself.send_command(Target.getTargets)defcreate_target(self,url:strabout:blank)-Dict[str,Any]: 创建新目标新页面 Args: url: 页面URL Returns: 创建的目标信息 returnself.send_command(Target.createTarget,{url:url})defattach_to_target(self,target_id:str)-Dict[str,Any]: 附加到目标 Args: target_id: 目标ID Returns: 附加结果 returnself.send_command(Target.attachToTarget,{targetId:target_id,flatten:True})defnavigate_to_url(self,target_id:str,url:str)-Dict[str,Any]: 导航到指定URL Args: target_id: 目标ID url: 目标URL Returns: 导航结果 # 首先需要启用Page域self.send_command(Page.enable)# 然后导航到指定URLreturnself.send_command(Page.navigate,{url:url})defclose_target(self,target_id:str)-Dict[str,Any]: 关闭目标 Args: target_id: 目标ID Returns: 关闭结果 returnself.send_command(Target.closeTarget,{targetId:target_id})classPlaywrightCDPConnector: Playwright CDP 连接器结合 Playwright 和 WebSocket 工具 def__init__(self,debug_port:int9222):self.debug_portdebug_port self.ws_urlNoneself.playwrightNoneself.browserNoneself.ws_utilNonedefget_websocket_url(self)-str: 获取 WebSocket 调试 URL Returns: WebSocket URL importrequeststry:resprequests.get(fhttp://localhost:{self.debug_port}/json/version,timeout5)self.ws_urlresp.json()[webSocketDebuggerUrl]returnself.ws_urlexceptExceptionase:raiseException(f无法获取 WebSocket URL:{e})defconnect_via_websocket(self)-bool: 通过 WebSocket 连接到浏览器 Returns: 连接是否成功 ifnotself.ws_url:self.get_websocket_url()# 使用原生的WebSocket进行连接self.ws_utilPlaywrightWebSocketUtil(self.ws_url)returnself.ws_util.connect()defconnect_via_playwright(self)-Browser: 通过 Playwright 连接到浏览器 Returns: Playwright Browser 实例 ifnotself.ws_url:self.get_websocket_url()# 使用playWright的【playwright.chromium.connect_over_cdp(ws_url)】进行链接ifnotself.playwright:self.playwrightsync_playwright().start()self.browserself.playwright.chromium.connect_over_cdp(self.ws_url)returnself.browserdefget_browser_info_via_websocket(self)-Dict[str,Any]: 通过 WebSocket 获取浏览器信息 Returns: 浏览器信息 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.get_browser_info()defget_targets_via_websocket(self)-Dict[str,Any]: 通过 WebSocket 获取所有目标 Returns: 目标列表 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.get_targets()defcreate_target_via_websocket(self,url:strabout:blank)-Dict[str,Any]: 通过 WebSocket 创建新目标 Args: url: 页面URL Returns: 创建的目标信息 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.create_target(url)defattach_to_target_via_websocket(self,target_id:str)-Dict[str,Any]: 通过 WebSocket 附加到目标 Args: target_id: 目标ID Returns: 附加结果 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.attach_to_target(target_id)defnavigate_to_url_via_websocket(self,target_id:str,url:str)-Dict[str,Any]: 通过 WebSocket 导航到指定URL Args: target_id: 目标ID url: 目标URL Returns: 导航结果 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.navigate_to_url(target_id,url)defclose_target_via_websocket(self,target_id:str)-Dict[str,Any]: 通过 WebSocket 关闭目标 Args: target_id: 目标ID Returns: 关闭结果 ifnotself.ws_util:raiseException(WebSocket 未连接)returnself.ws_util.close_target(target_id)defdisconnect_all(self): 断开所有连接 ifself.ws_util:self.ws_util.disconnect()ifself.browser:self.browser.close()ifself.playwright:self.playwright.stop()def__enter__(self):returnselfdef__exit__(self,exc_type,exc_val,exc_tb):self.disconnect_all()1-with资源初始化对比以下两种书写方式# 调用方式一使用with进行资源初始化withPlaywrightCDPConnector(debug_port9222)ascdp_util:# 通过 PlayWright 连接ifcdp_util.connect_via_playwright():browser_infocdp_util.browserprint(browser_info)default_pagebrowser_info.contexts[0].pages[0]print(默认页面标题,default_page.title())对比下面的写法# 调用方式2直接new对象进行使用cdp_utilPlaywrightCDPConnector(debug_port9222)# 通过 PlayWright 连接ifcdp_util.connect_via_playwright():browser_infocdp_util.browserprint(browser_info)default_pagebrowser_info.contexts[0].pages[0]print(默认页面标题,default_page.title())两种写法在“能不能跑通”层面没有区别最终都能拿到同一颗浏览器实例。真正的差异只有一点第一种写法把PlaywrightCDPConnector放进了with语句第二种写法没有。1. 资源释放with 写法__exit__会被自动调用Playwright 的浏览器进程、CDP 连接、临时文件等会被干净地关闭即使中间抛异常也能保证回收。手动写法不会自动关闭浏览器。脚本跑完后进程还挂在系统里长期运行会吃光内存如果中间抛异常资源泄漏更明显。想避免泄漏就得自己再包一层try/finally手动调cdp_util.close()代码量反而更多。2. 可读性 / 习惯with是 Python 推荐的“资源获取即初始化”模式一眼就能看出“这段代码结束就把连接器关掉”。手动写法容易忘记收尾尤其多人协作或脚本里穿插其他逻辑时维护成本更高。3. 异常安全with块里任何地方 raise 出来都会先执行__exit__浏览器不会留下僵尸。手动写法一旦异常跳出if分支后面的close()根本没机会执行。4. 复用场景如果你故意想让浏览器常驻比如调试时人工反复操作第二种写法反而更方便——对象一直存活你可以在后面继续调它的方法。但生产代码里这种“故意不关闭”的情况极少真需要常驻也最好显式写成全局单例并自己管理生命周期而不是靠“忘写close()”来达成。结论除非你有明确理由要“保持浏览器一直开着”否则优先用第一种with写法它更短、更安全、也不会在任务结束后留下僵尸进程。

标签：网站建设企业官网项目流程 UI设计前端开发

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

灯具网站怎么做新手可以做网站营运吗

2013网站怎么备案葫芦岛长城建设公司网站

php做网站的公司有哪些科技小制作小发明

网站系统的建设与管理iis部署网站项目

保定网站建设制作开发平台网站备案流程和规则

开发小网站排名如何确定网站建设空间

文章分类

标签云

相关文章

灯具网站怎么做新手可以做网站营运吗

2013网站怎么备案葫芦岛长城建设公司网站

php做网站的公司有哪些科技小制作小发明

需要专业的网站建设服务？