Agent Browser 概览
Agent Browser 是为 AI 代理打造的无头浏览器自动化工具,提供可组合的 CLI,用于页面导航、元素交互、结构化数据提取与执行 JavaScript。
核心使用 Rust 实现以获得更高性能,同时提供 Node.js 兼容层保证在更多环境下可用。
工作流程
使用 `agent-browser navigate <url>` 打开目标页面。
运行 `agent-browser snapshot` 捕获页面结构与元素引用。
根据快照引用执行点击、输入、滚动与选择等操作。
再次拍摄快照或截图验证结果,再继续下一步。
核心功能
导航与快照
打开页面并获取结构化元素引用,便于稳定交互。
点击、输入与滚动
通过结构化命令完成点击、输入与滚动。
JavaScript 执行
通过 `evaluate` 在页面上下文执行 JavaScript。
标签页管理
列出、打开、切换与关闭标签页。
截图
在自动化流程中随时截图记录。
等待与条件
支持延时与条件等待。
Rust 内核 + Node.js 兼容层
Rust 内核提供性能,Node.js 兼容层保障可用性。
系统要求
- 需要 Node.js(用于 Node.js 兼容层)
- 需要 npm(通过 npm 全局安装 CLI)
- 无需 API Key(本地运行)
使用场景
网页自动化
自动化表单提交与多步骤网页流程。
数据抓取
从动态渲染页面提取结构化数据。
表单填充
程序化填写与提交表单。
UI 测试
通过 CLI 模拟用户交互进行 UI 测试。
安装方式
npx clawhub@latest install agent-browser在终端运行以上命令,或点击页面顶部的安装按钮一键完成。
常见问题
需要 API Key 吗?
不需要。Agent Browser 本地运行,不依赖外部服务凭证。
需要哪些运行环境?
需要 Node.js 和 npm。CLI 通过 npm 全局安装,并使用 Node.js 兼容层。
能处理 JavaScript 渲染的页面吗?
可以。它驱动真实浏览器,通过快照与引用与动态页面交互。
如何与页面元素交互?
先生成快照,再使用元素引用执行 click、fill、type、scroll、select 等命令。
Agent Browser(agent-browser)是什么?
它是面向 AI 代理的浏览器自动化 CLI,Rust 内核提供高性能,Node.js 兼容层保证可用性。
核心流程是什么?
打开页面后生成快照拿到引用,使用引用执行点击/填写,再次快照确认变更。
必须安装 Node.js 吗?
是的。CLI 使用 Node.js 兼容层,并通过 npm 安装。
是否跨平台?
支持 macOS、Linux、Windows,并提供 Node.js 兼容层。