AI Agent 的手和眼，终于对上了

BrowserSkill AI Agent 浏览器自动化腾讯开源 Agent浏览器

发布于 2026-07-01 04:08:29 191 次浏览

AI Agent 的手和眼，终于对上了

腾讯开源 BrowserSkill，用一条本地桥接线，把 Agent 的执行力接进了你已登录的真实浏览器

你有没有发现一个矛盾：AI Agent 的"脑子"已经能读懂网页了，但它的"手"始终够不到你真正在用的那个浏览器。

它能分析页面结构，却进不了你的内网后台；它能生成操作指令，却每次都要冷启动一个全新的 Chromium——跟你日常登录的那个浏览器各玩各的，登录态不共享，窗口还互相抢。

2026 年，"给 Agent 装浏览器"这件事已经分成了两条路线：一条是让 Agent 自己造一个新浏览器，另一条是让 Agent 借你已有的那个。腾讯 6 月开源的 BrowserSkill，走的是第二条——而且是目前这条路上唯一做到 agent 中立 + 纯本地的方案。

两条路线，一个分水岭

先说大图。今年 AI 浏览器工具已经收敛成两个阵营，选型之前先想清楚你要哪个：

路线 A：借你的浏览器——复用已登录的真实浏览器，有登录态、不冷启、人机共存。适合内网后台、SaaS 操作、半自动协作。

路线 B：造一个新浏览器——Agent 专属的全新实例，隔离干净、可无人值守、适合 CI 和批量抓取。但默认没有你的登录态。

BrowserSkill 站在路线 A，但跟同路线的官方 Claude in Chrome、OpenClaw Relay 相比，它有两个独特标签：不绑定任何特定 Agent 框架，不外联任何服务器。这两个标签看似技术细节，实际决定了谁能用、敢不敢用。

为什么"agent 中立"不是小事

官方 Claude in Chrome 只认 Anthropic 官方账号登录。国内大量开发者跑 Claude Code 走的是 authtoken 接中转站，或者干脆接第三方 API——这批人官方浏览器功能直接用不了。

BrowserSkill 对 Agent 来说就是一个普通 shell 命令 bsk，跟 curl 没区别。它不关心你用什么模型、什么 key、什么鉴权方式。Cursor、Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy、Hermes Agent——装完 bsk install-skill 自动检测本机框架，一键写入各自的 skills 目录。

这意味着：你换 Agent 不用换工具，你换 API 不用改配置。在 Agent 框架还在快速迭代的当下，这个中立性比功能多寡更值钱。

为什么"纯本地"不是小事

官方 Claude in Chrome 会把你访问的 URL 上报服务器做策略校验。对个人博客无所谓，但如果你让 Agent 去看内网知识库、Jira 工单、公司后台——URL 上报就是数据泄露。

BrowserSkill 全链路走 127.0.0.1：Agent → bsk CLI → bsk Daemon（WebSocket 本机端口 52800）→ 浏览器扩展 → CDP → Agent Window。没有 telemetry，没有凭证上报，install.sh 逐行可审。内网地址友好，这不是锦上添花，是能不能用的分界线。

核心机制：一个窗口，两种身份

BrowserSkill 的关键设计是 Agent Window——在你已开的浏览器里，划出一个橙色描边的专属窗口给 Agent 用。它共享你的登录态（Cookie/Session），但不碰你正在用的标签页。Agent 要碰你的标签得显式 bsk tab borrow，用完自动归还。

这解决了路线 A 最怕的问题：Agent 和人抢同一个浏览器。Playwright 每次冷启新实例还抢焦点，BrowserSkill 直接在你浏览器里开一个隔离窗口——没有冷启动，就是你那个真实会话。

交互方式上，BrowserSkill 把 snapshot 列为第一选择、截图垫底。snapshot 把页面可交互元素整理成带编号的无障碍树（@e1、@e2...），Agent 直接 click @e12。这比把整个 DOM 或截图丢给模型更省 token、步骤更少、确定性更高。

有意思的是，这已经不是 BrowserSkill 一家的选择。Vercel 的 agent-browser 用 Refs，BrowserAct 用 state 编号树——三家不约而同走到了同一个设计。Snapshot + 编号引用，正在成为 Agent 浏览器工具的行业共识。

三步装起来

# 1. 装 CLI（macOS/Linux）
curl -fsSL https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.sh | sh
# Windows: irm https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.ps1 | iex

# 2. 装浏览器扩展（Chrome Web Store 搜 BrowserSkill）
# ⚠️ 装进你平时用的、已登录目标站点的那个浏览器

# 3. 配置 Agent
bsk install-skill    # 空格选框架，回车自动配置

装完跑一套实测命令：

bsk browsers                            # 查看连接的浏览器，拿 instance id
bsk session start --browser <id>        # 开一个会话
bsk navigate --session <sid> https://example.com
bsk snapshot --session <sid>            # 输出带编号的无障碍树
bsk click   --session <sid> @e12        # 按编号点击
bsk fill    --session <sid> @e8 "hello" # 填写输入框
bsk request-help --session <sid>        # 遇验证码/登录，暂停交回给你
bsk session stop <sid>                  # 用完必须关

实测最直观的感受：在一个已登录的站点上，普通隔离浏览器打开会被踢回登录页；BrowserSkill 用你已登录的浏览器打开，直接就是登录后的页面。登录态共享，确实成立。

认清边界：它不是万能的

BrowserSkill 用 Rust 写的 CLI + Daemon，轻量高效，但有几个硬边界必须知道：

1. 需要你的浏览器开着——这不是缺点，是设计前提。它就是要用你已登录的浏览器。真正的短板是连接不够稳：service worker 闲置后、浏览器重启后，instance id 会变、连接会掉。没人盯着的长时间任务不如 Playwright 省心。

2. 读不了 console / network——命令集里没有控制台和网络抓包。找前端 bug 看报错只能用 evaluate 绕。这是相对官方 Claude in Chrome 的硬伤——后者专门主打读 console 调试。已有开发者 fork 补了这版（CDP 的 Log/Network/Runtime 域旁路抓取），issue 已提上游。

3. 不支持 GIF / 会话录制——截图只有单张 PNG，没有录屏。要演示操作流程得外接录屏工具。

4. 扩展权限偏大——要 debugger + <all_urls>，技术上能读任意站点的全部内容和 Cookie。SKILL.md 里写的"不要提取凭证"只是提示词约束，没有技术强制。对比 OpenClaw 的 manifest 只要 debugger + localhost，更克制。

5. 页面内容会进 Agent 上下文——等于进了你的 LLM 提供商。含敏感信息的页面，绕过了人工脱敏。所有"真实浏览器 + LLM"方案都有这个问题，不是 BrowserSkill 独有，但得心里有数。

腾讯的 Agent 生态拼图

BrowserSkill 不是腾讯在 Agent 浏览器领域的唯一落子。把视野拉远一点：

SkillHub：腾讯推出的 AI Skills 社区，基于 OpenClaw 生态，聚合 1.3 万个技能，专为中国用户优化（国内镜像加速、中文搜索、安全扫描）
QBotClaw：QQ 浏览器内置的 AI 智能体，国内首个浏览器原生 AI 助手，能读取登录态、收藏夹、历史记录
QQBrowserSkill：QQ 浏览器的 Web Skill，让 OpenClaw 直接访问真实网站完成操作

BrowserSkill 是这个拼图里的开源基础设施层——不绑定腾讯自家产品，MIT 协议可商用可二开，面向所有 Agent 框架。SkillHub 和 QBotClaw 做生态和分发，BrowserSkill 做底层桥接。这个分工很清晰。

选型一句话

要登录态、要跟人共存、不要冷启 → BrowserSkill。要 CI、要无人值守、要读 console、要干净隔离 → Playwright。

它们不是替代关系，是互补。如果你已经在让 AI 干网页活儿，又被"登录态"和"抢窗口"折磨过，BrowserSkill 值得装来试。但别把它当全自动魔法——它需要你的浏览器开着，它读不了 console，它的权限边界靠自觉。认清这三条，再决定用在哪。

GitHub: https://github.com/Tencent/BrowserSkill

推广链接：Agnes AI — 1M 上下文 + 4K 生图 + 视频全免费，API: apihub.agnes-ai.com/v1 | https://platform.agnes-ai.com/

AI Agent 的手和眼，终于对上了

两条路线，一个分水岭

为什么"agent 中立"不是小事

为什么"纯本地"不是小事

核心机制：一个窗口，两种身份

三步装起来

认清边界：它不是万能的

腾讯的 Agent 生态拼图

选型一句话

评论