香港六合彩开奖直播与Devin同事一个月，开导团队吐槽：滤镜碎一地，20个任务只得手了3个！

发布日期：2024-08-26 08:32 点击次数：177

香港六合彩开奖直播

《GTA6》发售，随后上线《GTA Online 2》

任何想要打破朝九晚五生活束缚的人都会在网上找到灵感。

【CSDN 编者按】AI 工夫的快速发展，让越来越多的企业和开导者运行尝试将 AI 器具诈欺于软件开导中，祈望好像进步开导效果、收缩开导职守。Devin，当作一款自愿布便备受瞩策画自动化 AI 开导器具，宣称好像像东谈主类工程师一样落寞完成从代码编写到调试、部署等一系列任务。为了考证这个说法，本文作家经过一个月的践诺测试，共享了他们的亲自体验和深入感念。

原文连接：https://www.answer.ai/posts/2025-01-08-devin.html

作家 | Hamel Husain、 Isaac Flath、 Johno Whitaker

翻译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

2024 年 3 月，一家新的 AI 公司倏得崭露头角，凭借远大的融资撑持，劝诱了业界的平凡温雅：它完成了由 Founders Fund 领投的 2100 万好意思元 A 轮融资，同期得到了行业首领们的撑持，包括 Collison 昆季、Elad Gil 以及科技界的其他了得东谈主物。这家公司背后的团队成员更是令东谈主惊叹：他们都是国外信息学竞赛（IOI）金牌得主——这些东谈主处置的编程问题大多数东谈主都难以通晓。他们推出的产物名为 Devin，宣称将是一位十足自主的软件工程师，好像像东谈主类同事一样与你对话，完成从学习新工夫、调试练习代码库到部署完整诈欺，以至教化 AI 模子等各样任务。

Devin 的早期演示让东谈主印象深入：一段视频展示了 Devin 在十足莫得东谈主工骚动的情况下，落寞完成了一项 Upwork 赏格任务，装配并运行一个 PyTorch 技俩。据该公司宣称，Devin 在 SWE-bench 基准测试中不错处置 13.86% 确切凿 GitHub 问题——比之前的系统性能杰出约三倍。泉源，只消一小部分用户好像体验这一工夫，很多东谈主在 Twitter 上慷慨地共享，称其将透顶篡改软件开导的风景。

当作 Answer.AI 团队的一员，咱们一直在实验 AI 开导者器具，而 Devin 给咱们带来了一种不同的嗅觉。若是它能完毕其承诺的一半，那么它如实有可能篡改咱们的职责风景。关联词，尽管 Twitter 上充满了慷慨东谈主心的驳斥，但咱们发现践诺使用它的精通报谈却三三两两。于是，咱们决定亲自测试 Devin，用一系列确凿任务来熏陶它。这篇著作就是咱们对 Devin 的深入探索——对 2024 年最受温雅的 AI 产物进行一次透顶的考研。

（AI 生成图片）

Devin 是什么？

Devin 的专有之处在于其基础设施。不同于一般的 AI 助手，Devin 通过 Slack 平台操作，况兼好像自建操办环境。当你与 Devin 进行对话时，践诺上是在与一个领有完整操办环境的 AI 交流——这个环境包括了网页浏览器、代码剪辑器和敕令行界面。Devin 好像装配依赖项、查阅文档，以至预览它我方创建的 Web 诈欺。以下是启动任务让 Devin 职责的一种方法：

（通过 Slack 启动 Devin 任务的风景）

通盘体验设计上让东谈主嗅觉像是在与同事交流。你神气想要完成的职责，Devin 就运行行为。通过 Slack，你不错不雅察它处置问题的过程，必要时向你申请字据，并在职务完成后共享连接。而背后，它正在一个 Docker 容器中运行，使其好像在禁闭环境下安全地进行实验，同期保护你的系统不受影响。此外，Devin 还提供了一个 Web 界面，允许你造访其职责环境，实时不雅看它与 IDE、网页浏览器等器具的交互。以下是Web界面的截图：

（Devin 的 Web 界面）

初步得手

咱们交给 Devin 的第一个任务简单但确凿：将 Notion 数据库中的数据导入 Google Sheets。Devin 以惊东谈主的材干完成了这一任务：它找到了 Notion API 文档香港六合彩开奖直播，通晓了所需内容，并教唆我一步步设置 Google Cloud Console 中的必要字据。不同于单纯提供 API 指示，它一步步调换我完成每个菜单的操作和按钮的点击，省去了频繁繁琐的文档查找过程。通盘过程持续了梗概一个小时，其中只消几分钟的东谈主工骚动。最终，Devin 共享了一个连接，指向一个阵势竣工的 Google Sheets 文档，得手完成了数据的导入。

固然 Devin 生成的代码略显冗长，但如实灵验。这也让咱们看到了将来的晨曦——一个好像处理“胶水代码”任务的 AI，自若了开导者无数的时分。Johno 也得手地使用 Devin 创建了一个行星跟踪器，用于反驳对于木星和土星历史位置的说法。特等令东谈主印象深入的是，他是十足通过手机完成的这个任务，Devin 认真了所有环境设置和代码编写等贫窭职责。

扩大咱们的测试规模

在初步得手的基础上，咱们运行深入探索 Devin 的异步材干。咱们设想让 Devin 在会议时代编写文档，或在咱们专注于设计职责时调试问题。但跟着测试限度的扩大，问题渐渐泄露。那些看似简单的任务，Devin 经常需要数天而非数小时来完成，未必会堕入工夫死巷子，或者给出过于复杂、无法使用的处置决策。

更令东谈主担忧的是，Devin 倾向于鞭策践诺上不行能完成的任务。举例，在被条目将多个诈欺步履部署到单一的 Railway 环境中时（Railway 并不撑持此功能），Devin 并莫得识别出这一限定，而是铺张了一整天尝试多样方法，以至诬捏了一些并不存在的功能。

最令东谈主颓废的并不是失败自己——毕竟所有器具都有其局限性——而是咱们花了无数时分试图补救这些失败的尝试。

深入探究问题所在

在这个问题上，咱们感到有些困惑。咱们看到 Devin 在处理 API 集成和构立功能诈欺时发达得非常出色，但它却在一些看似简单的任务上却碰到了贫寒。难谈是运谈不好？如故咱们使用的风景辩别？

在一个月的时分里，咱们系统地纪录了 Devin 在以下几类任务中的测试发达：

● 从新创建新技俩

● 奉行盘考任务

● 分析和修改现存技俩

收场让咱们有些颓废：在 20 个任务中，Devin 失败了 14 次，得手 3 次（包括泉源的两次），还有 3 次无法笃定成败。更为要害的是，咱们无法找到任何划定来瞻望哪些任务会得手。那些看似与咱们早期得手近似的任务，时时以出东谈主意料的风景失败。以下是咱们在每个类别中的资格回来：

（1）从新创建新技俩

这个类别本应是 Devin 的坚强。毕竟，其公司的演示视频展示了它落寞完成 Upwork 赏格任务的材干，而咱们我方早期的得手案例也标明它好像从新创建新技俩。关联词，现实情况要复杂得多。

举例，当咱们尝试与一个名为 Braintrust 的 LLM 可不雅测性平台集成时，任务非常明确：生成合成数据并上传。关联词，Devin 给出的处置决策不错说是一团乱麻——过多的概括层使得简单操作变得无须要的复杂。最终，咱们废弃了对 Devin 的尝试，转而使用 Cursor 从容构建集成，收场发现这种方法要高效得多。雷同，当咱们条目 Devin 为咱们的 AI 条记器具与 Spiral.computer 进行集成时，别称团队成员把 Devin 生成的代码描摹为：“横三顺四，代码读起来比我从新运行写的还要零星”。尽管 Devin 不错造访两者的文档，但它似乎如故心爱把每个阵势都作念得过于复杂。

最能诠释 Devin 这方面问题的，应该是网罗爬虫。咱们条目 Devin 造访 Google Scholar 连接并握取某位作家最新的 25 篇论文——对于像 Playwright 这么的器具来说，这项任务简直决胜千里，而 Devin 还具备浏览网页和编写代码的材干，按理说应该更容易实现。关联词，Devin 却堕入了一个无尽轮回，连续地尝试剖判 HTML，无法解脱我方的零星状况。

（2）盘考任务

若是 Devin 在处理具体的编码任务时碰到贫寒，那么它在盘考性职责中的发达是否会更好呢？很缺憾，收场酌夺是散乱不皆。固然它好像处理一些基本的文档查阅（比如咱们早期的 Notion/Google Sheets 集成），但更复杂的盘考任务对它来说仍然是一个挑战。

举例，当咱们条目 Devin 盘考带有准确时分戳的转录回来——这是咱们靠近的一个具体工夫难题时，但它仅仅简单复述了与主题关联的旯旮信息，并莫得信得过深入中枢问题。它莫得尝试探索可能的处置决策或识别要害的工夫难点，而是提供了与根柢问题无关的通用代码示例。即便在 Devin 看似有所进展时，收场时时也不像名义上看起来那么好。比如，当咱们条目它创建一个简单的 DaisyUI 主题示例时，Devin 生成了一个看似可行的处置决策。关联词，仔细查验后咱们发现，这个主题践诺上毫无作用——咱们看到的风景仍是是默许主题的风景，而非咱们的自界说设置。

（3）分析与修改现存代码

Devin在处理现存代码库时的发达尤其令东谈主担忧。这类任务需要通晓荆棘文并保持与既定模式的一致性——这是 AI 软件工程师应该具备的中枢材干。

咱们尝试让 Devin 处理 nbdev 技俩时，碰到了一些令东谈主战栗的问题。当咱们条目它将一个 Python 技俩迁徙到 nbdev 时，Devin 连基本的 nbdev 设置都无法通晓，尽管咱们提供了详备的文档供其参考。更让东谈主糊涂的是，它在处理 notebook 时的风景——它莫得径直剪辑 notebook，而是创建 Python 剧正本修改 notebook，导致本应简单的任务变得过于复杂。固然 Devin 偶尔也提供了一些有用的宗旨或想法，但它生成的践诺代码持久存在多样问题。

在安全审查方面，情况也近似。当咱们条目 Devin 对一个不到 700 行代码的 GitHub 仓库进行安全间隙评估时，它反应过度，符号了无数误报，还诬捏了根柢不存在的问题。这类分析本不错通过单一且垂直的 LLM 调用来完成，而不是 Devin 采用的这种复杂风景。

此外，调试任务中也存在近似问题。当咱们窥探为什么 SSH 密钥转发在设置剧本中无法宽泛职责时，Devin 过分温雅剧本自己，从未谈判问题可能存在于其他方位。这种“窄小的视线”意味着它无法匡助咱们找到践诺的根柢原因。雷同，当咱们条目它在用户输入和数据库值之间进行轻松查验时，一位团队成员花了几个小时试图搞显明提供 Devin 的决策，最终如故决定我方编写该功能，耗时仅约 90 分钟。

团队反想

经过一个月的密集测试，咱们团队连合在一皆，并回来了咱们对 Devin 的使用警戒。以下的几句话可能最能抒发咱们的感受：

Johno Whitaker：“Devin 能完成的任务频繁都很小且界诠释确，但这种任务还不如我我方作念，反而更快；对于那些我认为可能会省俭时分的大型任务，它时时又会失败。是以，当今莫得什么信得过的诈欺场景让我想用它。”

Isaac Flath：“泉源我对 Devin 接近得手的状况很快活，因为我以为只需稍作和谐即可。但跟着需要转换的方位越来越多，我对它越来越失望，最终发现我方不如从新运行，一步步完成。”

Hamel Husain：“尽管咱们提供了无数的文档和示例，但 Devin 依旧难以使用AnswerAI里面器具，而这些器具对咱们来说又至关蹙迫，是以咱们都不太爱用它。比较之下，Cursor 等器具就莫得这个问题，咱们不错从容调换其向正确的主义发展。”

与 Devin 不同，咱们发现由开导者主导职责历程的器具（如 Cursor），不错幸免咱们在 Devin 中碰到的大部分问题。

论断

与 Devin 勾通的过程，展示了自主 AI 开导所追求的梦想状况。用户体验是缜密的——通过 Slack 聊天、异步不雅察它职责、看到它设置环境并处理依赖关系。当它运行风雅时，如实令东谈主印象深入。

关联词，问题在于——它很少能得手。在咱们尝试的 20 项任务中，有 14 次失败，3 次收场不笃定，仅有 3 次得手。更令东谈主担忧的是，咱们无法瞻望哪些任务会得手。即使是近似于咱们早期得手的任务，也会以复杂且耗时的风景失败。于是，泉源看似有出息的自动化功能，反而酿成了一种职守——Devin 会在不行能的处置决策上铺张数天时分，而不是实时识别出根人性阻止。

这响应了咱们在 AI 器具中反复不雅察到的一种模式：应答媒体上的热议和公司估值与践诺诈欺价值简直没推敲系。咱们发现，最可靠的信息大多来自于用户精通的使用故事和践诺产物的托福。就当今而言，咱们更倾向于使用那些由咱们主导开导过程的器具，同期在需要时得回 AI 的匡助即可。

上一篇：澳门六合彩开奖查询好莱坞行家坠落, 山火暗影下的一场悲催

下一篇：澳门六合彩开奖查询 010期大飞双色球测度奖号：红球双胆参考

香港六合彩开奖直播 与Devin同事一个月，开导团队吐槽：滤镜碎一地，20个任务只得手了3个！

推荐资讯

香港六合彩开奖直播与Devin同事一个月，开导团队吐槽：滤镜碎一地，20个任务只得手了3个！