百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

AI 会自己操控电脑了!Claude 3.5 重磅升级:不敲一行代码,3 分钟搞定一个网站

dezehang 2024-11-24 14:21 2 浏览

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

仅一个晚上过去,Claude 3.5 的重磅升级令整个 AI 圈都为之一震:

  • “ChatGPT 很好,但我宣布今天过后 Claude 3.5 Sonnet 赢疯了!”

  • “太疯狂了!Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku,它将彻底改变 AI Agent 的游戏规则。”

  • “毫无争议,Claude 3.5 Sonnet 就是所有写代码模型中的王!”

根据 Anthropic AI 的官方介绍,此次 Claude 3.5 模型升级主要包括升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku:Claude 3.5 Sonnet 在各方面都比前版本有显著提升,特别是在编码方面;Claude 3.5 Haiku 在许多评估中与之前的最大模型 Claude 3 Opus 的性能相当,成本和速度也与前一代 Haiku 相似。

其中最引人注目的更新,无疑是:Claude 3.5 Sonnet 居然能像人一样使用电脑(Computer use)了!


“像人一样使用电脑”,3 分钟搞定网站设计&修改

不存在任何文字游戏,“像人一样使用电脑”与其字面意思一致:升级版 Claude 3.5 Sonnet 具备一项突破性的全新能力“Computer use”,即开发者可以通过 API 指示 Claude 像人一样使用计算机,包括观察屏幕、移动光标、点击按钮和输入文本等等。

在实现该功能的过程中,Anthropic AI 尝试了一种新方法:不是为 Claude 创建特定工具来完成单独任务,而是教会它通用计算机技能,使其能够使用一系列为人设计的标准工具和软件程序。

基于这样的设计理念,Anthropic AI 构建了一个 API,使 Claude 能够感知并与计算机界面互动。开发者可以集成该 API,使 Claude 能够将指令转化为计算机命令,实现任务的自动化和智能化。

例如,收到“使用我计算机上的数据和在线数据填写此表格”这句指令,Claude 可将其转化为:检查电子表格;移动光标以打开网页浏览器;导航至相关网页;使用这些页面中的数据填写表格。

所谓耳听为虚,Anthropic 研究员 Alex Albert 亲自录制了一个 demo:如何利用 Claude 自动完成一个网站编码任务。

(1)首先,要求 Claude 在 Chrome 浏览器中导航到 Claude.ai,并创建一个有趣的、以 90 年代为主题的个人主页

(2)想要对这个网站做一些修改,可要求 Claude 点击下载并保存文件,然后在 VS Code 中将其打开。

(3)让 Claude 启动一个服务器,以便在浏览器中查看该文件。这一过程中 Claude 首次遇到了问题:尝试启动服务器,但设备中并没有安装 Python。意外的是 Claude 通过查看终端输出,自己发现了这个问题,之后用 Python 3 再次尝试后,成功启动了服务器。

(4)Alex Albert 发现终端输出中有个错误,即顶部还缺少了一个文件图标,便要求 Claude 自己识别并将其修复。结果:Claude 顺利找到并删除了引发错误的代码行,保存文件并重新运行后,网站终于再无其他问题!

以上整个过程,包括 Alex Albert 的讲解在内,仅仅只用了 3 分钟。

目前,Claude 3.5 Sonnet 已在公测阶段,且是业内首个在公测阶段提供“Computer use”功能的前沿 AI 模型——不过,千万别因此着急解雇你的助理,Anthropic 还补充道:“此阶段仍处于实验阶段,偶尔可能显得笨拙且容易出错。”

例如,在一项旨在测试 AI Agent 帮助完成机票预订任务的评估中,升级版 Claude 3.5 Sonnet 成功完成的任务不到一半;在另一项涉及发起退票等任务的测试中,Claude 3.5 Sonnet 的失败率也超过了 30%

Anthropic 承认,目前 Claude 3.5 Sonnet 的“Computer use”功能仍不完美。一些人们能轻松完成的操作(如滚动、拖动、缩放)目前对 Claude 来说仍具挑战性,整体速度也很慢,因此鼓励开发者从低风险任务开始探索。

尽管如此,Anthropic 依旧对“Computer use”的前景充满期待,并相信它将随着时间的推移迅速改善。据悉,目前 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司已经开始探索 Claude 3.5 Sonnet 的可能性,尝试令其自动执行需要数十,甚至上百个步骤才能完成的任务。

正如 Anthropic 所说,这项尚处于起步阶段的技术,将从初步部署中不断学习并进步。


Claude 3.5 Sonnet 编码能力大幅提升

除了惊艳亮相的“Computer use”功能,升级后的 Claude 3.5 Sonnet 在行业基准测试中也有大幅改进,尤其在自主编码和工具使用任务上尤为突出。

在编码方面,Claude 3.5 Sonnet 在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%,超过所有公开可用的模型,包括 OpenAI o1-preview 和专为自主编码设计的系统。不仅如此,它在 TAU-bench(一个自主工具使用任务)中的表现也有显著提升:在零售领域从 62.6% 增加到 69.2%,在更具挑战性的航空领域从 36.0% 提升到 46.0%。

“全新的 Claude 3.5 Sonnet 在保持与前代相同的价格和速度的同时,实现了这些进步。”

除此之外,Anthropic 表示许多早期客户也反馈道,升级版 Claude 3.5 Sonnet 是 AI 驱动编码的一次重要飞跃:

  • GitLab 在对 DevSecOps 任务进行测试时发现,Claude 3.5 Sonnet 的推理能力提高了(在各种用例中最高可达 10%),且没有增加延迟,成为多步骤软件开发流程的理想选择;

  • Cognition 使用新版本 Claude 3.5 Sonnet 进行自主 AI 评估,发现其在编码、规划和问题解决方面的表现比之前的版本有了显著改善;

  • The Browser Company 在使用该模型自动化基于网页的工作流程时,注意到 Claude 3.5 Sonnet 超越了他们以往测试过的所有模型。


超越 GPT-4o,Claude 3.5 Haiku 推出在即

本次与 Claude 3.5 Sonnet 一同推出的,还有 Claude 3.5 Haiku——Anthropic 将其形容为:“高端性能与经济实惠的结合”。

据介绍,在与 Claude 3 Haiku 相同成本和类似速度下,Claude 3.5 Haiku 在每项技能上都有所提升,并在许多智能基准测试中超越了 Claude 3 Opus(Anthropic 的上一代最大模型)。在编码任务上,Claude 3.5 Haiku 的表现也尤为强劲,例如它在 SWE-bench Verified 上得分 40.6%,超越了原版 Claude 3.5 Sonnet 和 GPT-4o 等高端模型代理。

Anthropic 介绍道,凭借低延迟、改善的指令跟随能力和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务,以及根据大量数据生成个性化体验——如购买历史、定价或库存记录。

据悉,Claude 3.5 Haiku 将在本月晚些时候通过 Anthropic 官方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。需要注意的是,初期 Claude 3.5 Haiku 仅作为文本模型提供,后续将推出图像输入功能。

展望未来,Anthropic 呼吁开发者积极探索 Claude 3.5 的新模型以及“Computer use”功能,也期待这些发展为人们带来更多 AI 应用的可能性。

参考链接:https://www.anthropic.com/news/3-5-models-and-computer-use

相关推荐

WIN10系统如何安装UG10.0

随着科技的不断进步与更新,现在有很多公司己经安装上了WIN10的系统以及使用UG10.0了,但很多人反映WIN10系统安装UG10.0不好装,以下详细介绍一下1如果WIN10系统没有自带有JAVA需...

自学UG编程的心得分享

为什么有的人3个月学会基本的UG建模画图编程,有的断断续续3——5年才学会,还有的人干了7年的加工中心还不会电脑画图编程。这是什么原因?1.顾虑太多,什么都想得到,什么都想一起抓,总是上班加班没时间,...

UG/NX 绘制一个捞笊(zhào)模型,或者也可以叫它漏勺?

今天我们来看看这个模型,起因是群里有小伙伴说要做一个捞笊的模型,看见这名字直接给我整懵了,然后他发了张家里漏勺的图片才知道原来这玩意还有个这种名字。这东西相信每个小伙伴家里都有吧,它的建模方法也比较...

再也不用为学UG编程发愁了!380集最新UG资料免费送

上期发的UG教程很多粉丝都领到了,收获越来越多的好评!有你们一直陪伴真的很高兴,谢谢各位粉丝!为了给大家提供更优质的资源,这两个月都在整理你们最关心的UG资源,都是多位编程工厂老师傅的工厂实战精华,真...

优胜原创UG_3-4-5轴后处理下载

反复上机调试,安全稳定可靠,请放心使用2020.11.21,修复YSUG4-5轴后处理锁轴输出...

青华模具学院-UG10.0安装文件说明

青华模具学院分享:今天我们来跟大家一起学习NX10.0版本的安装方法,网上有很多这个版本的安装视频以及方法图文,但到最终安装软件时仍有很多新手对安装仍然感到头痛,基于这样的情况,我们特别就NX10.0...

UGnx10安装说明

温馨提示,安装前,请退出杀毒软件,关闭防火墙,因为这些软件可能阻断NX主程序和许可程序间的通信,导致安装后,软件无法启动。1、解压下载后的压缩包,右键,选择‘’解压到UGNX10_64位正式版(csl...

正版UG软件,正版UG代理,正版软件和盗版软件的区别

大家都知道,UG软件是制造业必不可少的一款三维软件,广泛应用于:CAE(有限元分析),CAD(产品设计/模具设计),CAM(计算机辅助制造编程),那么有人不禁要问了,正版软件和盗版软件在使用上有明显区...

非常全面的UG加工模块中英对照(图标注释)

大家好,我是粥粥老师,听说很多同学都在学习UG但是没有学习资料和安装包,今天粥粥老师就全部打包好免费发放给你们,那么怎么获取全套资料图档安装包呢领取途径①关注②评论、点赞、转发③私信“UG或者...

腾讯自研Git客户端 UGit|Git 图形界面客户端

支持平台:#Windows#macOS腾讯推出的一款Git图形界面客户端,简化了Git的使用流程,特别适合处理大型项目和文件。支持直接提交和推送操作,避免在大规模项目中由于远程频繁变更而导致...

经典收藏:UG重用库的一些不为人知小技巧

免费领取UG产品编程、UG多轴UG模具编程、安装包安装教程图档资料关注私信我“领取资料”,即可免费领取完整版,感谢支持,爱你们哟,么么主题:UG后处理+仿真+外挂UG重用库的正确使用方法:首先有...

UG编程常用指令G、M代码,快收藏好

今天给大家分享数控编程常用的指令代码,希望对正在学习路上的你带来一丝丝帮助。最好的方法就是转发到自己空间,方便以后学习。对了,如果你还需要其他UG教程学习资料,CNC加工中心的一些参数,以及UG画图,...

UG NX7.0中文版从入门到精通

Unigraphics(简称UG)是一套功能强大的CAD/CAE/CAM应用软件,UGNX7是其最新版本。《UGNX7从入门到精通(中文版)》以UGNX7为平台,从工程应用的角度出发,通过基...

经典UG建模基础练习图纸

UG是目前工作中比较优秀拥有大量用户的一款机械模具产品行业三维设计软件,cam加工丶软件支持全中文汉化;能够带给用户更为非凡的设计与加工新体验。很多朋友私信小编问有没有UG建模练习图纸,今天给大家分享...

UG NC软件基础操作,如何设置UG草图精度

默认情况下我们绘制草图一般只保留一位小数,即使你输入多位小数软件也会自动四舍五入,这个你做一些国标的图还好,国标以毫米为单位,一般保留小数点后一位就够了,但如果你做的图是英制单位,那么保留一位小数肯定...