Page 1 of 1

人性化计算机使用:使用 Claude 3.5 实现桌面自动化

Posted: Mon Mar 17, 2025 5:44 am
by mostakimvip06
最近,Anthropic AI 改进了他们的 Claude 3.5 Sonnet 和 Claude 3.5 Haiku。通过这次更新,他们引入了一项新功能,这将彻底改变我们与 AI 的工作方式和交互方式。他们引入了计算机使用,这是一项突破性的新功能,可以查看屏幕、移动鼠标​​、点击按钮和输入文本。

本质上,它可以根据简单的提示为您完成所有事情。您所要做的就是编写提示,Claude 将执行实现目标所需的所有步骤。

在这里,我们将了解 Anthropic 计算机的使用、其工作原理以及如何开始将其与 Docker 结合使用。我们还将了解如何改进模型的性能、用例、限制和定价。

人为计算机使用特征图像

作者图片

什么是人为计算机使用?
计算机使用是 Anthropic 的一项新功能,Claude 可以与工具交互来操 瑞典赌博数据 纵计算机桌面环境。像人类一样,它可以接受命令并执行必要的步骤来达到目标​​。

正如我们在下面的演示视频中看到的那样,Anthropic 的研究人员 Sam 要求 Claude AI 使用电子表格或搜索端口填写供应商请求表。Claude AI 在验证表格后填写了表格,从而实现了手动工作的自动化。


Claude | 使用计算机实现自动化操作
目前,计算机的使用仍处于试验阶段,Anthropic 允许开发人员试用并报告错误。随着时间的推移,这项技术将不断改进,并且有可能变得非常高效,能够处理从开发人员到管理员等各种角色的任务。

Canva、DoorDash 和 Replit 等组织已经开始尝试使用计算机来自动执行需要数十甚至数百步才能完成的任务。

这项新功能得益于全新改进的Claude 3.5 Sonnet 模型,该模型可供所有用户使用。您可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问它。

计算机如何使用?
人类计算机使用在后台执行四个步骤。首先,它接收来自用户的 API 请求。通过使用提示,Claude 选择要使用的工具。之后,它会截取桌面的屏幕截图并评估任务是否完成。如果没有,它将继续使用这些工具,直到实现目标。让我们更详细地探讨一下。

1. API 请求
我们将首先使用 Python API 访问最新的 Claude 3.5 Sonnet 模型并使用两个工具:text_editor 和 bash。目前,我们只能访问三个 Anthropic 定义的工具:


print(response)
供电
2. Claude 选择要使用的工具
Claude 检查工具定义和访问权限,以查看某些工具是否可以与用户查询一起使用。选择工具后,Claude 会执行工具请求。

3. 提取、评估和结果
计算机使用会提取工具输入,使用输入在计算机上执行处理,然后将结果以屏幕截图的形式返回。之后,它会用包含工具结果的新用户消息继续对话。

4. 调用计算机使用工具直到其完成任务
Claude 处理并解释工具的结果,以确定任务是否完成或是否需要更多工具。如果它决定使用另一个工具,它将再次重复第三步。无需用户输入即可重复第三步和第四步,这被称为“代理循环”。这是一个重复的过程,Claude 使用工具与您的桌面环境进行交互并评估结果。

开始使用计算机
计算机的使用尚处于测试阶段,因此存在各种风险。如果计算机尝试通过浏览器访问互联网,这些风险会加剧。这就是为什么我们将使用具有最小权限的 Docker 容器来防止直接的系统攻击或事故。

我们将使用包含使用 Docker 启动计算机使用的命令的参考实现。Docker 映像包含 Claude 使用计算机所需的所有组件。

先决条件:

在您的系统上安装最新版本的 Docker。
获取 Anthropic API 密钥并确保您有足够的信用来使用此功能。
在终端或 bash 中输入以下命令。将 %your_api_key% 替换为您可从控制台获取的 Anthropic API 密钥。


它将下载所有必要的包并在 docker 容器中运行它们。

使用 Docker 镜像拉取 Anthropic 计算机

一旦容器运行起来,我们就可以在浏览器中 输入本地URL http://localhost:8080来访问Claude计算机使用了。

使用人本电脑使用。

开始输入提示,计算机将执行完成任务所需的所有必要步骤。

提高模型性能
为计算机编写提示与使用 Claude 3.5 Sonnet 进行聊天或生成一般响应完全不同。您需要遵循一些简单的规则才能获得准确的结果。

为每个步骤指定简单且详细的说明。
写一个提示,指示 Claude 在每个步骤之后截取屏幕截图并评估正确的结果。
在提示中添加反思过程。如果没有达到预期结果,指示 Claude 再试一次。
对于复杂的 UI 元素,请 Claude 使用键盘快捷键而不是鼠标。
附上您想要实现的结果的屏幕截图,以指导 Claude 实现类似的结果。
计算机使用应用程序
计算机在日常生活和工作场所中有数百种用途。它可以为您自动执行各种复杂任务。例如,您可以让计算机计划在金门大桥与朋友见面。

如视频所示,它可以执行 Google 搜索、打开地图查找距离、查看日落时间并将活动添加到日历中。这对于通常需要数小时研究和组织的日常任务来说非常了不起。人工智能只需几分钟即可在最少的监督下完成这些任务。