香港六合彩开奖直播 与Devin同事一个月,开导团队吐槽:滤镜碎一地,20个任务只得手了3个!

香港六合彩开奖直播

《GTA6》发售,随后上线《GTA Online 2》

任何想要打破朝九晚五生活束缚的人都会在网上找到灵感。

【CSDN 编者按】AI 工夫的快速发展,让越来越多的企业和开导者运行尝试将 AI 器具诈欺于软件开导中,祈望好像进步开导效果、收缩开导职守。Devin,当作一款自愿布便备受瞩策画自动化 AI 开导器具,宣称好像像东谈主类工程师一样落寞完成从代码编写到调试、部署等一系列任务。为了考证这个说法,本文作家经过一个月的践诺测试,共享了他们的亲自体验和深入感念。

原文连接:https://www.answer.ai/posts/2025-01-08-devin.html

作家 | Hamel Husain、 Isaac Flath、 Johno Whitaker

翻译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

2024 年 3 月,一家新的 AI 公司倏得崭露头角,凭借远大的融资撑持,劝诱了业界的平凡温雅:它完成了由 Founders Fund 领投的 2100 万好意思元 A 轮融资,同期得到了行业首领们的撑持,包括 Collison 昆季、Elad Gil 以及科技界的其他了得东谈主物。这家公司背后的团队成员更是令东谈主惊叹:他们都是国外信息学竞赛(IOI)金牌得主——这些东谈主处置的编程问题大多数东谈主都难以通晓。他们推出的产物名为 Devin,宣称将是一位十足自主的软件工程师,好像像东谈主类同事一样与你对话,完成从学习新工夫、调试练习代码库到部署完整诈欺,以至教化 AI 模子等各样任务。

Devin 的早期演示让东谈主印象深入:一段视频展示了 Devin 在十足莫得东谈主工骚动的情况下,落寞完成了一项 Upwork 赏格任务,装配并运行一个 PyTorch 技俩。据该公司宣称,Devin 在 SWE-bench 基准测试中不错处置 13.86% 确切凿 GitHub 问题——比之前的系统性能杰出约三倍。泉源,只消一小部分用户好像体验这一工夫,很多东谈主在 Twitter 上慷慨地共享,称其将透顶篡改软件开导的风景。

当作 Answer.AI 团队的一员,咱们一直在实验 AI 开导者器具,而 Devin 给咱们带来了一种不同的嗅觉。若是它能完毕其承诺的一半,那么它如实有可能篡改咱们的职责风景。关联词,尽管 Twitter 上充满了慷慨东谈主心的驳斥,但咱们发现践诺使用它的精通报谈却三三两两。于是,咱们决定亲自测试 Devin,用一系列确凿任务来熏陶它。这篇著作就是咱们对 Devin 的深入探索——对 2024 年最受温雅的 AI 产物进行一次透顶的考研。

(AI 生成图片)

Devin 是什么?

Devin 的专有之处在于其基础设施。不同于一般的 AI 助手,Devin 通过 Slack 平台操作,况兼好像自建操办环境。当你与 Devin 进行对话时,践诺上是在与一个领有完整操办环境的 AI 交流——这个环境包括了网页浏览器、代码剪辑器和敕令行界面。Devin 好像装配依赖项、查阅文档,以至预览它我方创建的 Web 诈欺。以下是启动任务让 Devin 职责的一种方法:

(通过 Slack 启动 Devin 任务的风景)

通盘体验设计上让东谈主嗅觉像是在与同事交流。你神气想要完成的职责,Devin 就运行行为。通过 Slack,你不错不雅察它处置问题的过程,必要时向你申请字据,并在职务完成后共享连接。而背后,它正在一个 Docker 容器中运行,使其好像在禁闭环境下安全地进行实验,同期保护你的系统不受影响。此外,Devin 还提供了一个 Web 界面,允许你造访其职责环境,实时不雅看它与 IDE、网页浏览器等器具的交互。以下是Web界面的截图:

(Devin 的 Web 界面)

初步得手

咱们交给 Devin 的第一个任务简单但确凿:将 Notion 数据库中的数据导入 Google Sheets。Devin 以惊东谈主的材干完成了这一任务:它找到了 Notion API 文档香港六合彩开奖直播,通晓了所需内容,并教唆我一步步设置 Google Cloud Console 中的必要字据。不同于单纯提供 API 指示,它一步步调换我完成每个菜单的操作和按钮的点击,省去了频繁繁琐的文档查找过程。通盘过程持续了梗概一个小时,其中只消几分钟的东谈主工骚动。最终,Devin 共享了一个连接,指向一个阵势竣工的 Google Sheets 文档,得手完成了数据的导入。

固然 Devin 生成的代码略显冗长,但如实灵验。这也让咱们看到了将来的晨曦——一个好像处理“胶水代码”任务的 AI,自若了开导者无数的时分。Johno 也得手地使用 Devin 创建了一个行星跟踪器,用于反驳对于木星和土星历史位置的说法。特等令东谈主印象深入的是,他是十足通过手机完成的这个任务,Devin 认真了所有环境设置和代码编写等贫窭职责。

扩大咱们的测试规模

在初步得手的基础上,咱们运行深入探索 Devin 的异步材干。咱们设想让 Devin 在会议时代编写文档,或在咱们专注于设计职责时调试问题。但跟着测试限度的扩大,问题渐渐泄露。那些看似简单的任务,Devin 经常需要数天而非数小时来完成,未必会堕入工夫死巷子,或者给出过于复杂、无法使用的处置决策。

更令东谈主担忧的是,Devin 倾向于鞭策践诺上不行能完成的任务。举例,在被条目将多个诈欺步履部署到单一的 Railway 环境中时(Railway 并不撑持此功能),Devin 并莫得识别出这一限定,而是铺张了一整天尝试多样方法,以至诬捏了一些并不存在的功能。

最令东谈主颓废的并不是失败自己——毕竟所有器具都有其局限性——而是咱们花了无数时分试图补救这些失败的尝试。

深入探究问题所在

在这个问题上,咱们感到有些困惑。咱们看到 Devin 在处理 API 集成和构立功能诈欺时发达得非常出色,但它却在一些看似简单的任务上却碰到了贫寒。难谈是运谈不好?如故咱们使用的风景辩别?

在一个月的时分里,咱们系统地纪录了 Devin 在以下几类任务中的测试发达:

● 从新创建新技俩

● 奉行盘考任务

● 分析和修改现存技俩

收场让咱们有些颓废:在 20 个任务中,Devin 失败了 14 次,得手 3 次(包括泉源的两次),还有 3 次无法笃定成败。更为要害的是,咱们无法找到任何划定来瞻望哪些任务会得手。那些看似与咱们早期得手近似的任务,时时以出东谈主意料的风景失败。以下是咱们在每个类别中的资格回来:

(1)从新创建新技俩

这个类别本应是 Devin 的坚强。毕竟,其公司的演示视频展示了它落寞完成 Upwork 赏格任务的材干,而咱们我方早期的得手案例也标明它好像从新创建新技俩。关联词,现实情况要复杂得多。

举例,当咱们尝试与一个名为 Braintrust 的 LLM 可不雅测性平台集成时,任务非常明确:生成合成数据并上传。关联词,Devin 给出的处置决策不错说是一团乱麻——过多的概括层使得简单操作变得无须要的复杂。最终,咱们废弃了对 Devin 的尝试,转而使用 Cursor 从容构建集成,收场发现这种方法要高效得多。雷同,当咱们条目 Devin 为咱们的 AI 条记器具与 Spiral.computer 进行集成时,别称团队成员把 Devin 生成的代码描摹为:“横三顺四,代码读起来比我从新运行写的还要零星”。尽管 Devin 不错造访两者的文档,但它似乎如故心爱把每个阵势都作念得过于复杂。

最能诠释 Devin 这方面问题的,应该是网罗爬虫。咱们条目 Devin 造访 Google Scholar 连接并握取某位作家最新的 25 篇论文——对于像 Playwright 这么的器具来说,这项任务简直决胜千里,而 Devin 还具备浏览网页和编写代码的材干,按理说应该更容易实现。关联词,Devin 却堕入了一个无尽轮回,连续地尝试剖判 HTML,无法解脱我方的零星状况。

(2)盘考任务

若是 Devin 在处理具体的编码任务时碰到贫寒,那么它在盘考性职责中的发达是否会更好呢?很缺憾,收场酌夺是散乱不皆。固然它好像处理一些基本的文档查阅(比如咱们早期的 Notion/Google Sheets 集成),但更复杂的盘考任务对它来说仍然是一个挑战。

举例,当咱们条目 Devin 盘考带有准确时分戳的转录回来——这是咱们靠近的一个具体工夫难题时,但它仅仅简单复述了与主题关联的旯旮信息,并莫得信得过深入中枢问题。它莫得尝试探索可能的处置决策或识别要害的工夫难点,而是提供了与根柢问题无关的通用代码示例。即便在 Devin 看似有所进展时,收场时时也不像名义上看起来那么好。比如,当咱们条目它创建一个简单的 DaisyUI 主题示例时,Devin 生成了一个看似可行的处置决策。关联词,仔细查验后咱们发现,这个主题践诺上毫无作用——咱们看到的风景仍是是默许主题的风景,而非咱们的自界说设置。

(3)分析与修改现存代码

Devin在处理现存代码库时的发达尤其令东谈主担忧。这类任务需要通晓荆棘文并保持与既定模式的一致性——这是 AI 软件工程师应该具备的中枢材干。

咱们尝试让 Devin 处理 nbdev 技俩时,碰到了一些令东谈主战栗的问题。当咱们条目它将一个 Python 技俩迁徙到 nbdev 时,Devin 连基本的 nbdev 设置都无法通晓,尽管咱们提供了详备的文档供其参考。更让东谈主糊涂的是,它在处理 notebook 时的风景——它莫得径直剪辑 notebook,而是创建 Python 剧正本修改 notebook,导致本应简单的任务变得过于复杂。固然 Devin 偶尔也提供了一些有用的宗旨或想法,但它生成的践诺代码持久存在多样问题。

在安全审查方面,情况也近似。当咱们条目 Devin 对一个不到 700 行代码的 GitHub 仓库进行安全间隙评估时,它反应过度,符号了无数误报,还诬捏了根柢不存在的问题。这类分析本不错通过单一且垂直的 LLM 调用来完成,而不是 Devin 采用的这种复杂风景。

此外,调试任务中也存在近似问题。当咱们窥探为什么 SSH 密钥转发在设置剧本中无法宽泛职责时,Devin 过分温雅剧本自己,从未谈判问题可能存在于其他方位。这种“窄小的视线”意味着它无法匡助咱们找到践诺的根柢原因。雷同,当咱们条目它在用户输入和数据库值之间进行轻松查验时,一位团队成员花了几个小时试图搞显明提供 Devin 的决策,最终如故决定我方编写该功能,耗时仅约 90 分钟。

团队反想

经过一个月的密集测试,咱们团队连合在一皆,并回来了咱们对 Devin 的使用警戒。以下的几句话可能最能抒发咱们的感受:

Johno Whitaker:“Devin 能完成的任务频繁都很小且界诠释确,但这种任务还不如我我方作念,反而更快;对于那些我认为可能会省俭时分的大型任务,它时时又会失败。是以,当今莫得什么信得过的诈欺场景让我想用它。”

Isaac Flath:“泉源我对 Devin 接近得手的状况很快活,因为我以为只需稍作和谐即可。但跟着需要转换的方位越来越多,我对它越来越失望,最终发现我方不如从新运行,一步步完成。”

Hamel Husain:“尽管咱们提供了无数的文档和示例,但 Devin 依旧难以使用AnswerAI里面器具,而这些器具对咱们来说又至关蹙迫,是以咱们都不太爱用它。比较之下,Cursor 等器具就莫得这个问题,咱们不错从容调换其向正确的主义发展。”

与 Devin 不同,咱们发现由开导者主导职责历程的器具(如 Cursor),不错幸免咱们在 Devin 中碰到的大部分问题。

论断

与 Devin 勾通的过程,展示了自主 AI 开导所追求的梦想状况。用户体验是缜密的——通过 Slack 聊天、异步不雅察它职责、看到它设置环境并处理依赖关系。当它运行风雅时,如实令东谈主印象深入。

关联词,问题在于——它很少能得手。在咱们尝试的 20 项任务中,有 14 次失败,3 次收场不笃定,仅有 3 次得手。更令东谈主担忧的是,咱们无法瞻望哪些任务会得手。即使是近似于咱们早期得手的任务,也会以复杂且耗时的风景失败。于是,泉源看似有出息的自动化功能,反而酿成了一种职守——Devin 会在不行能的处置决策上铺张数天时分,而不是实时识别出根人性阻止。

这响应了咱们在 AI 器具中反复不雅察到的一种模式:应答媒体上的热议和公司估值与践诺诈欺价值简直没推敲系。咱们发现,最可靠的信息大多来自于用户精通的使用故事和践诺产物的托福。就当今而言,咱们更倾向于使用那些由咱们主导开导过程的器具,同期在需要时得回 AI 的匡助即可。