最近体验了 Cursor 的 Cloud Agent 功能,特别是其中的 Computer Use 能力。整个过程让我对 AI 辅助开发有了全新的认知,在这里记录一下完整的体验过程。
什么是 Cursor Cloud Agent
Cursor Cloud Agent 是 Cursor 编辑器提供的一项云端 AI 代理服务。与传统的 AI 代码补全不同,Cloud Agent 运行在独立的云端虚拟机中,可以像一个真正的开发者一样,自主地执行一系列复杂任务:
- 探索和理解代码库结构
- 安装依赖、配置开发环境
- 运行终端命令
- 读写文件、编辑代码
- 使用浏览器进行手动测试
- 提交和推送 Git 变更
它不仅仅是一个代码生成工具,更像是一个能够独立工作的远程开发助手。
Computer Use 是什么
Computer Use 是 Cloud Agent 最让人兴奋的能力之一。简单来说,它让 AI 能够像人一样操作图形界面——打开浏览器、点击按钮、填写表单、截图、录屏。这意味着 AI 不再局限于命令行操作,它可以真正地 "看到" 应用的界面并与之交互。
这项能力基于 Anthropic 的 Computer Use 技术,AI 可以:
- 打开 Chrome 浏览器并导航到指定 URL
- 识别页面元素并进行点击操作
- 截取屏幕截图作为证据
- 录制操作视频用于演示
- 在不同页面之间导航和交互
体验过程
我的博客是一个基于 Hexo 构建的静态网站,代码托管在 GitHub Pages 上。我让 Cloud Agent 来搭建这个项目的开发环境,以下是它完成的工作:
第一步:代码库探索
Agent 首先启动了多个子代理(Sub-agent)并行探索代码库。它快速识别出这是一个纯静态网站——没有 package.json,没有构建步骤,没有任何需要安装的依赖。整个过程只用了几秒钟,比我自己打开文件夹翻看还快。
第二步:启动开发服务器
识别出项目类型后,Agent 选择了 Python 内置的 HTTP 服务器来提供静态文件服务:
python3 -m http.server 8080 |
然后用 curl 验证了所有页面(首页、关于页、归档页、Linux 命令页)都返回了 200 状态码。
第三步:Computer Use 验证
这是最有意思的部分。Agent 启动了 Computer Use 子代理,在云端虚拟机中打开 Chrome 浏览器,然后像一个真人用户一样浏览我的博客:
- 打开首页,确认博客文章列表正常显示
- 点击第一篇博客文章《Respberry Pi 4 使用 Ubuntu 20.10 系统》,进入文章详情页
- 点击浏览器返回按钮,回到首页
- 点击导航栏中的「归档」链接,查看文章归档页
- 点击「关于」链接,查看个人简历页
每一步都自动截取了屏幕截图,最后还录制了一段完整的导航演示视频。整个过程完全自主,不需要我的任何干预。
第四步:文档与配置
Agent 还自动创建了 AGENTS.md 文件,记录了项目的关键信息和开发注意事项,方便未来的 Cloud Agent 会话能够快速上手。它还配置了 VM 启动脚本,确保环境的可重复性。
让人印象深刻的地方
并行能力
Agent 会同时启动多个子任务并行执行,比如同时探索代码库结构、搜索配置文件、查找文档。这种并行处理能力极大地提升了效率。
自主决策
面对一个没有任何构建配置的纯静态网站,Agent 没有困惑或报错,而是正确地判断出只需要一个静态文件服务器,然后选择了最简单可靠的方案。
视觉验证
Computer Use 能力让 AI 能够像 QA 工程师一样进行视觉验证。它不仅检查了 HTTP 状态码,还真正打开了浏览器查看页面渲染效果,确认导航功能正常工作。这比单纯的自动化测试更接近真实用户体验。
证据导向
Agent 的工作风格是证据导向的。每一步操作都会产生可验证的输出——终端日志、截图、录屏。最终交付的不仅是代码变更,还有完整的验证证据链。
总结
Cursor Cloud Agent 的 Computer Use 功能代表了 AI 辅助开发的一个新方向。传统的 AI 编程助手只能在代码层面工作,而 Computer Use 让 AI 具备了与完整开发环境交互的能力——从终端操作到浏览器测试,覆盖了开发者日常工作的方方面面。
当然,这项技术还在快速发展中。目前它更适合结构化的、可预测的任务(如环境搭建、代码审查、自动化测试),对于需要创造性思考的复杂设计决策,仍然需要人类开发者的判断。
但不得不说,看着 AI 自主地打开浏览器、浏览我的博客、截图录屏、最后整理出一份完整的测试报告——这种体验确实让人感到未来已来。
而最有趣的是,你现在正在阅读的这篇博客文章,也是由 Cursor Cloud Agent 帮我撰写并发布的。