最近谷歌也推出了一个叫做 Chrome DevTools MCP, 也是让 AI 控制浏览器,改天研究一下和 playwright 比哪个好。
01
看看效果
先看一下接入了 playwright MCP 的时际效果,我在 Claude Code 里面输入:打开微博,搜索找到博主:罗永浩的十字路口,在他第一篇帖子评论区评论:“罗老师,我想念锤子了。
你看看,你看看,他真的自己操作浏览器,打开微博、搜索罗永浩,屁颠屁颠的去评论了。
而且我给的指令是比较口语化的,并没有给很明确详细的路径指引。
它都能一把过,太绝了。
02
如何安装
你可以在 Claude Code、CodeX 或者其它 MCP 客户端里面直接使用,下面是安装配置命令:
其实有一个更简单安装、配置方法,比如是使用 Claude Code,你直接说:帮我安装并配置 playwright MCP 就行,它会自己帮你下载、安装、配置。
你只需要输入 /mcp 命令看看他有没有装好就行了。
03
啥原理?
经常看逛逛的读者应该清楚,早期让 AI 操作浏览器的方法是:
这个方案最大的问题是耗资源、速度慢、不精确、调用视觉 API 昂贵。
但这个项目是直接通过结构化 Accessibility Tree让 AI 看懂网页的,速度更快、精度更高。
最重要的是搞清楚 Playwright 和 Accessibility Tree 是啥,你就明白这里面的原理了。
① 首先解释什么是 Playwright?其实是微软开发的一个强大的浏览器自动化库,支持 Chromium、Firefox和 WebKit(Safari)三大引擎。它比传统的 Selenium 等工具更现代、更强大、更可靠,也就是下面这个接近 8 万人 Star 的项目。
开源地址:https://github.com/microsoft/playwright
通过这玩意可以启动、关闭浏览器实例,管理多个标签页,设置视口大小、模拟设备等。拦截和记录网络请求、管理 Cookie、处理 JavaScript 对话框、执行自定义 JS 脚本等。同时还提供了极其丰富的 API 来模拟一切用户行为:点击、输入、拖拽、按键、导航等。Playwright MCP 就是将这些 API 封装成了 AI 可以调用的工具。
② 什么是 Accessibility Tree?
这个玩意儿是开源项目的灵魂,也是最巧妙的部分,解决了 AI 如何看见并理解网页的问题。
Accessibility Tree 是浏览器在渲染网页时,根据 DOM 树生成的一种专门用于辅助技术(如屏幕阅读器、盲文显示器等)理解和导航页面内容的中间表示结构。
你可以把它理解为 DOM 树的一个「特殊版本」或「语义化副本」,它过滤掉了纯粹用于视觉呈现的信息,提取并补充了辅助技术所需的语义信息。