AI Agent 的手和眼,终于对上了
腾讯开源 BrowserSkill,用一条本地桥接线,把 Agent 的执行力接进了你已登录的真实浏览器
你有没有发现一个矛盾:AI Agent 的"脑子"已经能读懂网页了,但它的"手"始终够不到你真正在用的那个浏览器。
它能分析页面结构,却进不了你的内网后台;它能生成操作指令,却每次都要冷启动一个全新的 Chromium——跟你日常登录的那个浏览器各玩各的,登录态不共享,窗口还互相抢。
2026 年,"给 Agent 装浏览器"这件事已经分成了两条路线:一条是让 Agent 自己造一个新浏览器,另一条是让 Agent 借你已有的那个。腾讯 6 月开源的 BrowserSkill,走的是第二条——而且是目前这条路上唯一做到 agent 中立 + 纯本地的方案。
两条路线,一个分水岭
先说大图。今年 AI 浏览器工具已经收敛成两个阵营,选型之前先想清楚你要哪个:
路线 A:借你的浏览器——复用已登录的真实浏览器,有登录态、不冷启、人机共存。适合内网后台、SaaS 操作、半自动协作。
路线 B:造一个新浏览器——Agent 专属的全新实例,隔离干净、可无人值守、适合 CI 和批量抓取。但默认没有你的登录态。
BrowserSkill 站在路线 A,但跟同路线的官方 Claude in Chrome、OpenClaw Relay 相比,它有两个独特标签:不绑定任何特定 Agent 框架,不外联任何服务器。这两个标签看似技术细节,实际决定了谁能用、敢不敢用。
为什么"agent 中立"不是小事
官方 Claude in Chrome 只认 Anthropic 官方账号登录。国内大量开发者跑 Claude Code 走的是 authtoken 接中转站,或者干脆接第三方 API——这批人官方浏览器功能直接用不了。
BrowserSkill 对 Agent 来说就是一个普通 shell 命令 bsk,跟 curl 没区别。它不关心你用什么模型、什么 key、什么鉴权方式。Cursor、Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy、Hermes Agent——装完 bsk install-skill 自动检测本机框架,一键写入各自的 skills 目录。
这意味着:你换 Agent 不用换工具,你换 API 不用改配置。在 Agent 框架还在快速迭代的当下,这个中立性比功能多寡更值钱。
为什么"纯本地"不是小事
官方 Claude in Chrome 会把你访问的 URL 上报服务器做策略校验。对个人博客无所谓,但如果你让 Agent 去看内网知识库、Jira 工单、公司后台——URL 上报就是数据泄露。
BrowserSkill 全链路走 127.0.0.1:Agent → bsk CLI → bsk Daemon(WebSocket 本机端口 52800)→ 浏览器扩展 → CDP → Agent Window。没有 telemetry,没有凭证上报,install.sh 逐行可审。内网地址友好,这不是锦上添花,是能不能用的分界线。
核心机制:一个窗口,两种身份
BrowserSkill 的关键设计是 Agent Window——在你已开的浏览器里,划出一个橙色描边的专属窗口给 Agent 用。它共享你的登录态(Cookie/Session),但不碰你正在用的标签页。Agent 要碰你的标签得显式 bsk tab borrow,用完自动归还。
这解决了路线 A 最怕的问题:Agent 和人抢同一个浏览器。Playwright 每次冷启新实例还抢焦点,BrowserSkill 直接在你浏览器里开一个隔离窗口——没有冷启动,就是你那个真实会话。
交互方式上,BrowserSkill 把 snapshot 列为第一选择、截图垫底。snapshot 把页面可交互元素整理成带编号的无障碍树(@e1、@e2...),Agent 直接 click @e12。这比把整个 DOM 或截图丢给模型更省 token、步骤更少、确定性更高。
有意思的是,这已经不是 BrowserSkill 一家的选择。Vercel 的 agent-browser 用 Refs,BrowserAct 用 state 编号树——三家不约而同走到了同一个设计。Snapshot + 编号引用,正在成为 Agent 浏览器工具的行业共识。
三步装起来
# 1. 装 CLI(macOS/Linux)
curl -fsSL https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.sh | sh
# Windows: irm https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.ps1 | iex
# 2. 装浏览器扩展(Chrome Web Store 搜 BrowserSkill)
# ⚠️ 装进你平时用的、已登录目标站点的那个浏览器
# 3. 配置 Agent
bsk install-skill # 空格选框架,回车自动配置
装完跑一套实测命令:
bsk browsers # 查看连接的浏览器,拿 instance id
bsk session start --browser <id> # 开一个会话
bsk navigate --session <sid> https://example.com
bsk snapshot --session <sid> # 输出带编号的无障碍树
bsk click --session <sid> @e12 # 按编号点击
bsk fill --session <sid> @e8 "hello" # 填写输入框
bsk request-help --session <sid> # 遇验证码/登录,暂停交回给你
bsk session stop <sid> # 用完必须关
实测最直观的感受:在一个已登录的站点上,普通隔离浏览器打开会被踢回登录页;BrowserSkill 用你已登录的浏览器打开,直接就是登录后的页面。登录态共享,确实成立。
认清边界:它不是万能的
BrowserSkill 用 Rust 写的 CLI + Daemon,轻量高效,但有几个硬边界必须知道:
1. 需要你的浏览器开着——这不是缺点,是设计前提。它就是要用你已登录的浏览器。真正的短板是连接不够稳:service worker 闲置后、浏览器重启后,instance id 会变、连接会掉。没人盯着的长时间任务不如 Playwright 省心。
2. 读不了 console / network——命令集里没有控制台和网络抓包。找前端 bug 看报错只能用 evaluate 绕。这是相对官方 Claude in Chrome 的硬伤——后者专门主打读 console 调试。已有开发者 fork 补了这版(CDP 的 Log/Network/Runtime 域旁路抓取),issue 已提上游。
3. 不支持 GIF / 会话录制——截图只有单张 PNG,没有录屏。要演示操作流程得外接录屏工具。
4. 扩展权限偏大——要 debugger + <all_urls>,技术上能读任意站点的全部内容和 Cookie。SKILL.md 里写的"不要提取凭证"只是提示词约束,没有技术强制。对比 OpenClaw 的 manifest 只要 debugger + localhost,更克制。
5. 页面内容会进 Agent 上下文——等于进了你的 LLM 提供商。含敏感信息的页面,绕过了人工脱敏。所有"真实浏览器 + LLM"方案都有这个问题,不是 BrowserSkill 独有,但得心里有数。
腾讯的 Agent 生态拼图
BrowserSkill 不是腾讯在 Agent 浏览器领域的唯一落子。把视野拉远一点:
- SkillHub:腾讯推出的 AI Skills 社区,基于 OpenClaw 生态,聚合 1.3 万个技能,专为中国用户优化(国内镜像加速、中文搜索、安全扫描)
- QBotClaw:QQ 浏览器内置的 AI 智能体,国内首个浏览器原生 AI 助手,能读取登录态、收藏夹、历史记录
- QQBrowserSkill:QQ 浏览器的 Web Skill,让 OpenClaw 直接访问真实网站完成操作
BrowserSkill 是这个拼图里的开源基础设施层——不绑定腾讯自家产品,MIT 协议可商用可二开,面向所有 Agent 框架。SkillHub 和 QBotClaw 做生态和分发,BrowserSkill 做底层桥接。这个分工很清晰。
选型一句话
要登录态、要跟人共存、不要冷启 → BrowserSkill。要 CI、要无人值守、要读 console、要干净隔离 → Playwright。
它们不是替代关系,是互补。如果你已经在让 AI 干网页活儿,又被"登录态"和"抢窗口"折磨过,BrowserSkill 值得装来试。但别把它当全自动魔法——它需要你的浏览器开着,它读不了 console,它的权限边界靠自觉。认清这三条,再决定用在哪。
GitHub: https://github.com/Tencent/BrowserSkill
推广链接:Agnes AI — 1M 上下文 + 4K 生图 + 视频全免费,API: apihub.agnes-ai.com/v1 | https://platform.agnes-ai.com/
暂无评论。