视觉检测领先者
全国咨询热线:13812953225

2025年必卷的AI应用——AI编程会怎么样发展?

发布时间:2025-01-09 21:02:59 人气: 来源:bob电竞体育平台登录

  2024 年底,Cursor 以 26 亿美元估值完成了 1 亿美元融资,。更早之前,另一家主打「AI 程序员」的勇于探索商业模式的公司 Devin 在还没有产品推出、只有宣传片的情况下,就以 20 亿美金的估值筹集了 1.75 亿美元。

  2024 年底,多位独立开发者向极客公园表示,从大厂辞职、成为自己的老板的自由是 Cursor 给的,现在 Cursor 最多能够在一定程度上帮助完成 50% 的代码。同时,随着大模型从预训练的 Scaling Law 切换到推理侧后,AI 写代码的能力还在明显提升。

  种种现象都在表明,在没有迎来 AI 应用大爆发、仍在拿着锤子找钉子的 2024 年,「AI 帮助人类写代码」是为数不多已经看到 PMF(商品市场匹配)的场景,甚至是最大有可能实现 AGI、完全自动化的赛道。

  更重要的是,当 AI 让产出物可以跳过代码、直接变成软件时,市场空间迎来了十倍、百倍的释放。

  2024 年 12 月 27 日,极客公园「今夜科技谈」直播间邀请极客公园创始人 & 总裁张鹏,和 AIGCode 创始人 & CEO 宿文、豆包 MarsCode 产品负责人石扬,一起聊了聊当下最热闹的 AI Coding 赛道,以及中国创业者的机会。

  张鹏:最近 Cursor 以 26 亿美元的估值融资 1 亿美元,4 个月估值翻了 6.5 倍。除此以外,今年海外AICoding 赛道里也还有很多勇于探索商业模式的公司都以迅速膨胀的估值拿到了一轮又一轮融资。为什么现在这个赛道非常热?

  石扬:现在整个大模型赛道特别像互联网非常早期的状态——大家在持续地寻找 PMF,无论是从 AI 原生应用的角度,还是在一个既有的 APP 里把 AI 能力加进去,其实大家都是在用各种各样的方式尝试。

  但代码很显然是一个被证明有非常大潜力,且某些特定的程度上已经实现 PMF(商品市场匹配)的场景。

  最近 Cursor 比较火的一个根本原因是基础模型有了很大的突破,比如Claude 3.5 Sonnet 出现之后,让 Cursor 过去做的一些事情被放大了。当然,只有模型能力也不够,Cursor 并不是短期突然冒出来的,而是在这个行业里持续做了很多,它的成功是一个厚积薄发的过程。

  张鹏:如果我们拆解一下 Cursor 的成功,哪些是模型比如 Claude3.5 出现之后,大模型带来的助推?哪些可能是 Cursor 自己的积累?

  第一次 PMF 大概在一年前,应用形态是 Copilot。当时 Copilot 主要的功能发生在代码补全,比如我写一个 function(函数)时,AI 可以直接补全出来更好的代码。因为它的能力基于 ChatGPT 大模型,而大模型的底层逻辑 Transformer 算法是预测下一个 token,由于更结构化、代码的预测难度相比语言更简单一些,所以很快找到了 PMF。

  Claude3.5 的出现让我们正真看到另一个点——通过 Chat(聊天对话)的形式与 AI 对话,能够理解你的需求,直接生成更好的(代码),这是第二次 PMF,从单纯的代码补全、跨文件的补全,到 Chat 这个层面的变化。

  但是只有基础模型也不行,在严肃的软件开发的场景里,能力只是底层,工具是对于很多能力的一层封装,比如 Claude 3.5 也有 Artifacts 这样的产品的类型。

  所以这里有三层事情:第一层是模型,第二层是工程,第三层是产品,Cursor 很好地结合了这三个部分。

  当然也有很多讨论,大家会问 Cursor 的护城河到底是什么?它是否只做了胶水层的东西?Cursor 其实看到了很多用户的真实需求,这是在 AI 这个时代做产品最难的地方——如何真正地使用户得到满足需求。因为我们幻想了太多 AI 的能力,AI 可以成为这个、可以成为那个、可以实现 AGI,但实际上真的能够回到用户场景里,很好地把 AI 的能力 fit in 到客户的真实需求里,Cursor 做了很多。比如它做了很多小模型和亮点功能,像「Fast Apply」能够迅速把生成的代码准确地插入到你特定的文件里,「在正确的时间、正确的位置生成正确的代码」。

  宿文:我们之前有一次很有意思的讨论说,Cursor 想做在大厂或者 AGI 巨头的车轮前面「抢钱」的一个创业公司,并不是说这样的创业模式不好,其实反而是很精准,很多创业公司就应该做这样的事情。

  在整个代码赛道上,不管从哪个点切入,抓住了用户的痛点、把需求解决掉收到钱,这是像 Cursor 给市场带来的很正向的反馈——你会看到它真正的、实打实的 ARR(年度经常性收入)的增长。Cursor 应该是用 9 个月的时间做到了 7000 万美金的 ARR,还在继续上涨。另外像 Bolt.new 用 3 个月的时间做到 1200 万美金的 ARR,也是很兴奋的进展。

  张鹏:最近一年陆续听到很多开发者说像 Cursor 这样的工具已经能够帮助他写一半的代码了。从你们的视角,今天程序员的工作习惯正在发生哪些变化?我们来更具象地看看目前代码类AI产品、技术处于什么样的阶段?

  石扬:你不用它可能觉得也就那么回事,但你一旦用完了之后就会发现很难再离开它。比如在你敲代码时,Copilot 大概率会补齐你的那一段比如 function(函数),这对程序员来讲是一个非常高效的感受。就像自动驾驶一样,以前我们开油车,大家都觉得比如「自动泊车」也没有什么意义,但是你现在开电车用过哪怕一次自动停车后,发现再回到油车感觉怪怪的,就希望有这个功能。

  再举一个 Chat 类代码应用的例子,我以前是一个开发者,你让我去做一个「贪吃蛇」小游戏,且把它做得有一定的可用性,也要花 1 到 2 天的时间,包括前端、后端调优,持续做很多 debug(排故障)的逻辑。但是现在,基本上只要靠对话,不管是用我们自己的 MarsCode,还是 Cursor、Windsurf 这样的产品,基本上两三个小时就能调出一个过去要两三天才能实现的事。

  分场景来看就是,代码补全更多是提升大厂打工人的愉悦感;但从 0 到 1 做出一个小程序、小游戏的时候,你会很惊讶。「竟然这个东西也能把它做成」,用过之后会越来越会依赖它,不一定每次都准,但是它给你带来的愉悦感会越来越强。因为现在 AI 实现从 0 到 1 的速度,远比过去快得多得多,过去依靠的是比如拉一个模板,现在靠的是智能生产力。

  石扬:如果按照过去的方式来理解软件,只把软件当作一个工具,它依然是一个垂直赛道,即便 VS Code 或者 JetBrains 可能就十几亿美金,或者二十几亿美金的样子。但AI 的加成,让这件事情从工具向软件生产整个行业扩散,软件赛道变得非常大,机会是非常多的。MarsCode 非常希望成为参与者,帮助开发者有机会生产更多的软件。

  豆包 MarsCode 即将上线的新客户端 IDE 产品,除了提供完整的客户端 IDE 体验外,还可根据用户上传图片和提示词,生产完整的端到端代码

  我觉得整个从业者,大家既兴奋,但也是焦急的。我们看到了一个很好的曙光、很好的 PMF,有很多用户的需求存在在这里。

  宿文:整个代码赛道,也有几类产品。刚才石扬提到的 Copilot,或者像 Cursor、Windsurf 这样的一些产品,整体上还是给专业程序员使用,服务全球已经存在的七八千万程序员,大家已经都在 IDE(集成开发环境)里工作,每天写代码,现在通过对话的方式能够生成一些质量更高的、片段式的代码,这部分需求目前解决得不错。

  另外一类代码类产品,是把代码消费的能力大规模地释放出来,超过全球七八千万、占人口 1% 的程序员的范畴,让全球 10%、20% 甚至更多的人有使用代码的能力,当然这里用户要的不是代码,而是应用和软件,这是我们 AIGCode 在做的事情,但是目前行业还没有看到整个大规模的 PMF。

  张鹏:宿文,对于你要实现的目标,AIGCode 目前处在什么阶段?下一步要核心印证的东西是什么?是技术的可行性、还是对于需求的聚焦,最终把能力跟需求做到闭环?

  宿文:国内大模型这个赛道经常会给人一种感觉是,「技术信仰主义」和「马上要做商业化」这两件事情是对立的,但是对于任何一个成功的公司而言,二者缺一不可。我们要思考,现在整个技术的边界在哪,包括大模型的边界和软件工程的边界,我们要如何做创新、来把技术的这两个支柱融合在一起,最终通过产品,真正解决用户的问题。

  当然,因为用户不同、场景不同,往往也决定了技术路线的不同,而不是有什么样的技术路线就一定要怎么样。我们是先定好对「直接生成软件」的终局后,切入了最核心的点。一方面是自己做大模型,从而让它的幻觉减少、以及像理科生一样思维能力全面提升;另一方面是考虑到生成时代的软件架构跟传统的软件业务架构会不一样,所以从模型和软件工程的角度来做产品。

  宿文:大模型时代真正能给各个行业带来划时代影响力的,还是大模型这个发动机。

  在模型上,我们发现代码生成的一些问题没解决。对代码来说,最主要的还是准确率,对还是错、能不能 run(运行)起来,但大模型的一大痛点是幻觉。在这一点上,网络结构上的优化能够带来很多收益,包括从最近 DeepSeek-V3 的发布也能看到。同时,我们也会为了匹配更好、更丝滑的产品,在预训练的过程加一些特殊的样本、一些稀疏的样本。

  另外是长上下文,Cursor 也遇到了这样的痛点,程序员在用的过程中,一开始很爽,基本写到 2 个小时左右的时间点,就发现 Cursor 的效率明显不如人。在这一点上,Cursor 最近也收购了专门做上下文的公司 Supermaven,来解决上下文和模型自身记忆容量(有限)的问题。

  张鹏:做AICoding 产品需要做预训练模型,在整个行业里是一个相对共识吗?

  宿文:做预训练模型不存在做一个垂直的模型:预训练呈现出来的一定是 AGI 的能力;而做一个垂直的模型,基本全部的(通用)能力会丧失,这已经是很多实验验证的(结论)了。

  而且做模型的厂商在预训练环节最关键的一部分就是加 Coding 数据。当加入一些其他语料比如中文、英文甚至化学、生物的时候,模型的能力会出现丢失,唯独增加代码能力后,所有专家的能力都会提升。我会感知到,代码本身是一个很高质量的语言,能够激发出 AGI 的能力。

  其实在编程赛道上,有两家公司 Poolside 和 Magic 都自己做模型,因为他们发现很多模型用在写代码上还不够聪明,这两家公司的估值大概是 30 亿美金左右。

  我们比较认同 Poolside 的路径,它体现出:大模型不管怎么做,生成的内容最终还是会呈现在一个二进制软件的世界里,做「代码的生成」跟「做模型」这两个事,一定程度上是等价的。在我看来,大家要把代码端到端写完,跟做 AGI 是一样的。只是具体解决什么问题,提供什么产品不同。

  为了帮助快速理解,该图通过「解决某个人群(普通大众/程序员)的什么问题(辅助编程/自主编程)」来定位产品。每个产品的切入点和路线不同,有的从专业用户出发解决专业程序员自动化问题,最后直接输出产品,有一部分是帮助普通人直接输出产品,但终极目标都是实现代码领域的 AGI,从 Copilot 往 Autopilot 不断进化。

  须注意:该象限图只代表阶段性观察,各家产品/技术更新很快,不排除未来出现象限漂移;此外,该图中的四个象限并不完全互斥,有的产品会同时涵盖一二三象限。|制图:极客公园

  石扬:我更倾向把横轴定义成「任务的复杂程度」,横轴左边是复杂任务、右边是简单任务。比如普通人想做一款「贪吃蛇」游戏;但是程序员可能要实现一个像抖音这么复杂的应用。

  从这个角度看,Replit 最早只是一个 IDE,甚至不是 Copilot,但它和 VS Code 最近都加上了 agent 的逻辑,它大概也和 Bolt.new 在同一个象限,满足简单任务里的端到端实现,与此同时也允许开发者(在复杂任务下)使用这个产品。

  对于我们的产品 MarsCode 来讲,目前还处在二三象限之间偏左一点的地方,希望服务程序员去完成复杂任务,让 AI 帮助程序员提效,更好、更快地实现他想做的东西。MarsCode 未来的愿景是在二象限的左上,也就是能做到复杂任务的 Autopilot。同时,我们自己的产品其实也面向了许多简单场景,因为即使是程序员、每天做非常复杂的应用时,依然也会做简单场景的应用。所以 MarsCode 还是希望在更多场景里覆盖不同人在不同场景里的需求。

  宿文:我觉得无论是服务于程序员还是服务于普通人,大家整体都在纵轴的维度往上做,也就是从 Copilot 到越来越 Autopilot 的过程。在横轴上,不管是从目标用户来区分、还是从任务复杂程度来区分,其实是大家选择交付不一样的市场价值,最终收敛到产品也不一样。

  AutoCoder 还是考虑怎么做 Autopilot,把一些工具性或者冗杂性的工作变得足够简单。

  Bolt.new 能够生成比较高质量的前端代码,程序员能够直接拷贝、使用,我们叫编译,也提供一些 Web 端或者 APP 的端到端生成,但它目前的部署有点问题,是一个假部署。

  Windsurf 基本上可以等价于 Cursor,产品体验上可能会不同。Vercel 目前的形态跟 Bolt 会很像。

  最后可能留一个避免被彻底打脸的口子,其实大家迭代产品的进度是很快的,可能它未来会完全会变掉,象限之间都有可能出现飘移,这个图只代表今天的、甚至是一部分的样子。

  宿文:今天看,各个象限的产品都还不太成熟。就现在来看,我最喜欢 Cursor,它在程序员这个存量市场的需求上,给大家解决得很爽。至于护城河,我觉得它会去考虑构建的。

  石扬:我个人比较喜欢两个产品:第一个是 Cursor,第二个是 Bolt,我觉得它代表了目前产品的两个流派。

  为什么?Cursor 自己讲它是「the first AI IDE」,本质上它是基于 IDE 向 AGI 或者说 Autopilot 进发的,它面向的是专业的开发者。(但)这个群体其实已经存在在 VS Code(微软开发的一款跨平台源代码编辑器)很长时间了,VS Code 有非常丰富的工具链,所以 Cursor 要基于已经存在的用户场景做增量、试图在这个场景里通过加入更多的 AI,让用户从微软的 VS Code 向 Cursor 提供的 Autopilot 迁移。

  Cursor 不仅是加了很多 AI 的能力,而且花了大量功夫让程序员的编程体验变好,比如说它的「Fast Apply」,它的「多点编辑」,包括它的「Tab」等等,乍一看觉得没什么,但实际上就是这些细节让它收获了程序员的喜欢和共鸣,所以Cursor 是从 IDE 向 Auto pilot 进发的流派。

  另一个是 Bolt.new,我觉得Bolt 是从大模型向 Autopilot 去进发,也就是说 Bolt 构建产品的逻辑是,我有了一个模型,模型能够生成很多代码,虽然它今天不完美。在这种情况下,Bolt 找到了一个场景——前端代码的生成的能力。Bolt 这个产品给你的感受是不在意「编辑」,像 Cursor 基于 VS Code 向 Autopilot 演进的过程中是重编辑的,程序员写代码就跟你写字一样其实有一个非常大的编辑区,但是 Bolt 重的是聊天,更重视「你告诉我你需要什么」,然后它帮你 generate(生成)。

  未来我们会从关注代码本身变成更加关注软件,产出物直接变成了软件,Bolt 让我看到了未来能轻松实现 Autopilot 的一种产品形态,尽管它还非常早期。

  张鹏:在代码领域,Copilot 和 Agent(或者叫 Autopilot)这两条线,这两年经历了怎样的发展?

  宿文:Copilot 和 Autopilot 两者的技术路径、场景、商业化等等不太一样,但整体上大家沿着南坡北坡爬(各自的)珠峰。

  目前看起来,Copilot 在路径发展上,整个 PMF 是超出预期的,今天对整个代码领域、对程序员世界的改造已经非常大了。

  但是另外一边,Autopilot——大家提出需求后能够生成一个端到端(应用)。以前这样的需求,是被一些低代码工具在解决,但是限于低代码本身的技术路线,没有把这个事情给完成。

  现在,通过大模型实现端到端生成时,能够解决的问题是,完成一个 Web 端的端到端生成,像 Bolt.new 或者 Vercel v0.dev,或者还有一些偏 ToC 或者娱乐性的 Websim.ai、CreateAny.ai 都是,包括 Claude 的 Artifacts 主要也是围绕 Web 前端去解决问题。但大家生成的质量或者交付的最终形态上有比较大差别。

  从整个 Autopilot 来看,我们团队想象的是,一个完整的软件应该从数据库开始,从后端到前端是一套完整的软件工程。目前还没有看到一个类似的产品或者一个团队做出这样的事。Magic 和 Poolside AI 可能想做,比较期待他们最终会交付一个什么样的产品出来。

  张鹏:刚才看了海外 AI Coding 领域创业公司的热闹和繁荣,国内这个领域的进展怎么样?

  宿文:国内起步倒不晚,基本上所有的大厂全部都进来开始做,创业公司也有,我们是差不多一年前做的,2024 年初。

  在我们看来,做大模型和代码生成,在本土竞争的空间是很小的,最终还是要面对全球化充分竞争,因为程序员都有能力去使用 Cursor、有能力去使用 Github Copilot,好产品大家是见过的。

  石扬:在移动互联网时代,社交、电商、娱乐可能都会有地域性的产品,但开发者工具在过去是很少分地域的,一直是一个赢家通吃、强者恒强的市场,比如刚才提到的微软的 VS Code。

  现在很多人会说,其实没有人能战胜 VS Code。我也认为最大的大魔王一定是微软,因为短期的竞争看产品和模型,长期的竞争是看成本和渠道。

  但在产品上,大家都各有自己的看法,包括要不要做模型等等存在大量非共识。从我们的视角来看,短期来看,模型应该还是中国有中国的,海外有海外的。第二,上一代代码产品是用作工具的,如果 AI 的加入仍旧让这个东西是一个工具,我觉得不用卷了,VS Code 已经足够好,生态已经足够完善。但是今天 AI 的变量带来的不只是工具。

  石扬:当 AI 在一定程度上帮助人直接做出不同类型的应用时,它带来了新的机会。我反而认为在中国是一个非常独特的市场,因为中国市场的需求足够不同。海外的程序员做 Facebook、做 API-Driven 的 ToB 软件;而中国程序员做抖音,做更加人工定制驱动的 ToB 业务。

  所以无论是从底层预训练模型给它的语料、数据,还是在做工具、产品时的取舍上,都会不同。

  举个最简单的例子,海外没有小程序,你跟 Bolt 或者 Vercel 说:「你帮我生成一个小程序」,它都不知道小程序是什么东西,也就不知道怎么帮你做或者帮你调用;再比如在中国做 ToB 要大量的定制,这个时候你跟海外的产品说:「我要基于中国的某些软件去做定制」,它也根本没有这个经验。

  所以从我们的视角看,第一,AI 时代的软件生成,是有 Localization(本地化)需求的。第二,在全球,它是一个重新洗牌的机会。这也是为什么至少短期看,Cursor、Windsurf、Bolt,它们跑得这么好,当变量发生的时候,巨头的反应永远是相对慢的。但也要注意,当增长放缓的时候,你才能体会到巨头的可怕。

  宿文:代码整个市场空间还是很大,大家用户频谱的切割不一样,不管是大公司还是初创公司,只能切其中的一段去服务,还是要看到底切哪一段。

  石扬:代码生成,其实只是整个软件链条里的一部分。生产一个软件,至少要经历需求、设计、写代码、上线、维护全周期反复连续的迭代。

  AI 这个新的生产力会让过去不敢想,或者做不到的事情在一定程度上成为可能,全链条里面有太多太多的细分场景可以被提升,但现在看起来每一个方向是非常早期的状态。

  即便像 AI 写代码目前好像跑得稍微快一些,但我觉得都不一定能类比互联网的 1998 年时刻,比如大家在投资雅虎的时候,很难想象后面还有这么多伟大的公司,Facebook、Google,包括阿里、腾讯、字节这些公司,所以很难精确地判断它会是什么样子,但我非常乐观地期待,会有很多不一样的事情诞生。

  张鹏:评论区有人问,字节做这件事的 Vision 是什么?现在已经有比较清晰的 Vision 了吗,还是一种 Bottom-Up 的探索?

  石扬:我觉得对于这件事情最大的 Vision,来自于我们看到 AI 释放了新的生产力,能够帮助到开发者去生成更多更好的软件,能够让效率极大的提升。回到刚才那张图,我们希望到那张图的左上角,因为简单场景也会被复杂场景 Cover(包括进去)。

  张鹏:今天我们在聊 AI Coding,SaaS 肯定是它衍生相关的领域,蝴蝶效应最快传达的可能就是这个领域。评论区也有观众问,未来 SaaS 还存在吗?大家会怎么看?

  从 SaaS 客户的角度看,对 SaaS 软件除了有合规、管理等相对标准化的工作流需求之外,还有各种个性化、长尾、非标,甚至是成长中的需求。这部分需求怎么满足?过去,SaaS 软件供给方其实赶不上需求方的成长速度,供给的成本、速度、质量是相对滞后的。

  现在,AI Coding 能把这部分需求空间挤掉,或者说AI Coding 本身会满足、释放大量的个性化场景:非标、长尾的需求,甚至仅仅是一个人单次的使用需求,如果这个成本降到用一次手机流量的成本。从这个角度看,通用应用、SaaS 其实是支撑 AI Coding 满足个性化需求的生态。我反而觉得这两者会相互驱动、越来越繁荣。

  张鹏:某种程度上,SaaS 的特性决定了,如果做大量的个性化需求,就没法 SaaS(标准化软件服务)了,但个性化的需求又是普遍存在,所以反而可能 AI Coding 弥补的频谱是在 SaaS 的延展侧,有非常大的空间。你刚才讲了一个极端的例子,「次抛型软件」。

  石扬:从我的视角,AI Coding 和 SaaS 并不是一个互斥、取代的关系。

  石扬:对。我以前也是做 SaaS 出身的,我觉得 SaaS 也要分中美。我想问一句,SaaS 真的在中国存在过吗?

  如果 SaaS 的定义是企业软件,那还有一类软件叫做个人软件或 ToC 软件。我觉得 ToC 和 ToB 最大的差异在于:ToC 产品只要一两个 Killer feature(杀手级功能),就可以满足 80% 到 90% 的客户的真实需求。所以对于 ToC 应用,不存在长尾需求,无非是特别特别小的需求,其实也没有太多人用;如果它的长尾足够大,就会生产出另外一个应用来。

  ToB 就不一样了,它可能是 80% 的功能满足了可能最多一半的用户,剩下一半的用户几乎都是有个性化需求的。因为 ToC 讲的是人性,人性都差不多;但是 ToB 讲的是管理,管理是一个逆人性的事情,必然就会有非常非常多在这个公司里产生的合理的诉求,因为企业的管理方式、流程的不同。

  在美国的生态环境下,满足这些需求的方式来自于约定,「我知道这个功能不能完全满足,但是我们可以约定:这个功能你可能再做一些努力,我也再做一些取舍,我们就用这样一个标准化的应用完成工作流」。

  在中国是另外一番场景,SaaS 是一个标准化软件的方式,但是中国从来不 buy-in 标准化软件,「我确实希望这个软件长得更像我要的那个东西」。

  所以 AI Coding 对于中国的 ToB 市场,反而是利好,不是 AI Coding 来了 SaaS 消失了,而是 AI 让 SaaS 更能实现满足中国用户需求的企业软件。其实在美国也是,不是个性化需求不存在,只是实现成本太高,所以妥协。

  张鹏:个性化需求原先需要 SaaS 公司的定制化团队提供额外服务,现在,用一个软件就解决了个性化需求。原来 SaaS 是「Software as a Service,软件即服务」,现在 AI 让 SaaS 变成「Service as a Software,服务即软件」。

  我反而觉得,如果大规模个性化定制可以这么低成本地实现,需求也会被进一步激发,反而因为 AI 的到来,中国未来会真的有 SaaS。

  张鹏:最近两年大家被 AI 集中轰炸,短短两年之内很多人就失望过好几轮了。比如大家还记得 Jasper 吗?Jasper 当年出现时,一度让人无比兴奋,结果它的能力其实没有逃离大模型的主射程。随着模型比如 o1、o3 还在不断往前走,模型通用能力以及代码生成能力的继续成长,AI Coding 应用未来会被大模型覆盖吗?

  宿文:我们觉得,如果真正大家想象中的 AGI 的状态能到来时,其实和代码实现平权化基本上是同一个时间点。

  但是今天来看,明显没到达。从技术上看,o1 也没有把代码生成的事情解决得很完美,o3 也还是在一个小样本的空间内,在它见过的题目里面可以做得很好,但是怎么去做泛化的推理,以目前的技术路线可能还是很难实现,或者实现成本巨高无比。

  从初创公司的角度看,我们觉得还有其他路径实现。目前整个 2024 年,其实在底层模型上的进展不多、亮点不多,DeepSeek V2 可能是一个(里程碑),DeepSeek V3 我们觉得还有比较大的完善空间。

  从目前业内的实践来看,这中间的安全空间还蛮大,或者说 AI Coding 应用和大模型的进化这两个东西是互相成就的,不用担心进入大模型的射程,这还比较遥远。

  举个最简单的例子,o1 或者 o3 能够在一些榜单上超过奥赛金牌,但是我们真正拿它代替一个最普通的软件外包公司程序员解决更泛化的任务时,会发现好像也没法替代。

  石扬:我们是否焦虑被模型吞掉这件事情,从我个人的角度,我非常希望模型能够吞掉。因为我更期待 AGI 发生,它可以帮我们做更多事情,实现了跨越式的发展。

  第二,大模型和,AI Coding 或者 IDE 之间的关系,我觉得更像是大脑和工具的关系。大模型是大脑,它的智能会不断地提升,但它依然需要工具帮它去体现它的智能。

  比如可能 AI 在很多场景里已经可以达到奥赛金牌的水平了,但是有几个获得奥赛金牌的人做程序员呢?不是超过了奥赛金牌水平你就是一个程序员、一个工程师,因为不同场景里对工程师有一些特有的要求。所以如何在特定场景里把智能释放出来,这个是我们自己的使命,是要做的事情。

  张鹏:同意,模型要是真的实现 AGI,有无限供给的生产力了,人类都自由了,这是挺好的一件事。但科技从来不是一个大进度条的跳跃,都是一个像素点一个像素点的填充,比如今天的 Copilot。

  石扬:整个行业在预训练上做的事情会越来越收敛,当然最领先的几家一定会所谓的「独家秘方」或者大招,但是共识会越来越趋同。

  比如训练模型,是要给它很多算法题比如 IMO 的这些题,让它能够很聪明地解出来。但是实际工作里,不是解算法题,而是要理解需求,比如生成一个小程序、一个前后端的应用,它到底需要什么样的技术栈、框架、需要什么样的 UI 前端渲染……所有这些东西。

  牵引目标的不同,训练方向也不同,你需要大量的比如 Post-training(后训练)、RL(强化学习)、SFT(微调),才能够真正让模型加工具,更像一个程序员在工作。

  张鹏:未来要解决无限供给的程序员,或者是无限提升的编程生产力,它在产业里最终可能会怎么实现?

  宿文:今天还很早期。拉远看,商业的形态,或者说分发的形态会变成什么样?我觉得要看在代码生成里我们核心的三个指标的完成度。

  一是效率,以前以小时、以周、以月为单位的程序员工作变成秒级,甚至毫秒级,那就完成了效率的使命。

  第二,质量,软件工程是端到端运行的,哪怕有 bug(故障)也一样能运行起来,但 AI 也能满足质量的需求,或者说让更好的工具实现普惠。

  最后是成本,当 AI 推理成本,变成电的成本,变成基础设施的时候,就会有新的形态出来,比如会出现我们想象中的端到端的形态。不用下那么多 APP、但常用的就几个了,个性化需求最后可能会收敛到一个应用,只有一个入口,这一个入口底下有大量的应用、场景、数据的供给,满足我所有「阅后即焚」或者陪伴我一段时间的需求。

  张鹏:两位刚好在不同的角度:大厂和勇于探索商业模式的公司,来做 AI Coding 这件事,心态上会有什么不同?

  宿文:我觉得无论大厂或者勇于探索商业模式的公司、共识或者非共识,这个事大家赚钱的概率是差不多的,都是小概率事件。

  创业之后会聚焦到一个项目上,会考虑很多事情,从软件工程和目前模型的边界等等,因为技术世界,菜是原罪,你要接受淘汰。但同时,你不是为了淘汰而来的,你要拼尽全力,看清楚技术的卡点在哪、要解决的工程问题在哪、商业化问题等等,每一个方面都要考虑。

  石扬:我觉得字节还是一个非常创业文化的公司,尤其是在这种创新业务上,我相信不管是我刚才讲的想法,还是我每天讲的,可能 100% 都是错的。在这个环境中,允许不断试错,从错误里学到更多的东西,在这一点上其实跟我以前创业没有特别大的区别。

  张鹏:MarsCode 今天在探索复杂任务下的编程自动化时,会遇到哪些挑战?

  石扬:每天面临着无数的挑战,首先 AI 和大模型这件事情本身就是非常难的。

  第二,如果有足够多的钱就能赢,我相信世界上就不再有创业公司了,所有的巨头都是从创业公司生长起来的,最难的还是认知。认知是平等的,每一个人每天只有 24 小时,只能获得或者处理这么多信息。如何获得认知对我们来说也是一个极端的挑战。

  其次是用户,如果没有足够的用户验证想法,我觉得它是很难的。如何洞察用户的需求,并且能够基于现在模型的能力,满足用户需求,这也非常考验产品功力。未来可能 GPT 20 出来之后,AGI 发生了,生成代码是非常容易的一件事情,但基于今天的模型现状满足当下需求,也是一个挑战。

  最后是速度,试错的速度。我觉得我们现在的状态还是不够快,不如很多创业公司如此之敏捷。如何能够加快在试错的次数、试错的效率,以及从错误中学习的能力,也是每天需要思考的问题。

  张鹏:预测在 2025 年 AI Coding 领域里面还会有什么变化?

  石扬:从行业上看,我期待更好的模型能力能够释放开来,我们能够把这些更好的模型能力,转化成交付给用户手里的生产力。最近行业的进展,无论从模型的推理能力、性能、速度,包括 OpenAI o3 虽然只是预告片,但都能看到很多的细节,非常令人期待。

  第二,也期待有更多人参与到代码生成的行业里,因为只有更多优秀的人加入到这个行业,才会迸发出更多的想法。大家在竞争同进步,对手足够强大,你才找到了更多的真正用户,以及能够打动用户的需求。

  石扬:整个去年 MarsCode 已经发了一款编程助手的插件,同时有云版本的 IDE 版本。2025 年估计每个季度都会有一些新的产品能力、产品形态释放开来,也非常期待 MarsCode 能够满足更多用户的需求。目前可以看到大量用户的需求是未被满足的,整个行业无论是从资本,做这件事情的团队以及用户,对这件事情的期待都非常高。

  过去一年 MarsCode 大概有 100 万用户,也特别期待老用户继续喜欢我们,更多新用户能看到我们的进步,用我们的新产品。做产品最大的快乐其实也来自于做出一个有价值的产品,被更多人用到的产品。

  张鹏:宿文,你认为 2025 年这个行业有可能出现什么样新的亮点和变化?

  宿文:目前模型和代码应用的发展可能稍微有点异步,期待明年有比较大的进展,不管是模型还是 Coding,我们更愿意把这两件事等价起来,尽管距离手机时代的 iPhone 时刻还很遥远。

  近期看到特别有意思的一段《悟空传》里面的一句话,「人在最有价值的时刻不是功成名就的时候」,我觉得大模型、AI Coding 最有价值的时刻,也不是到最后我们把 AI Coding 变成平权化的那个节点,而是在今天的条件下,怎么做决策。当然也会面临巨大的不确定性和竞争,但反而会是很有价值的一年。

  宿文:一个是准确率,对于大家表达的意图和需求,在软件里可以准确地、结构化地被模型识别。这一点上,整个软件架构上会有很多提升准确率的实现方式。

  另外是灵活性,在代码生成时,程序员从每一个方程、每一个函数或者其他的形式开始写,这里面是有巨大的灵活性的,如何完善灵活的使用场景,能够让产品经理也直接用,是需要完善的。

  最后是完善度,我们会首次在 AutoCoder 产品里覆盖从数据库、到后端和前端的一体化生成,大家使用的体验会更流畅、更深度。我们更愿意做一个严肃的产品,让大家的感知和体验都更好。

  AI 的终极目标是让普通人也能享受编程的乐趣,让不会代码的人也能通过 AI 来实现需求,所以这应该是大家的终极目标,只是根据他们今天的起点和面对的用户人群以及场景的不同,选择了不同的切入点。

  有些产品是从专业的用户出发解决专业程序员的编程和协作问题,解决自动化的问题,最后能够直接输出产品,有一部分是直接面对普通用户,辅助他们完成专业的编程,甚至直接输出产品。