×

世界杯(中国)官网 马斯克花 100 亿想了了一件事,不作念 coding agent 就是等死

发布时间:2026-05-21 04:01 来源:未知 作者:admin 浏览:58

世界杯(中国)官网 马斯克花 100 亿想了了一件事,不作念 coding agent 就是等死

1.

OpenAI 的两大夙敌 Anthropic 和马斯克,放下心中观念之后终于在月初订盟了。

在此之前,Anthropic 和马斯克的相关并不融洽:本年 2 月,马斯克还在我方的 X 账号责难 A 社「woke」「荼毒」「反东说念主类」(misanthropic),说这家公司「仇视娴雅」。

过其后看,此次报复并非马斯克超世绝伦的本性使然,而是 Anthropic 所作念的某些事情触遭逢他的神经,顺理成章。

在此之前,xAI 里面使用 Cursor 职责,但是本年年头职工发现,Claude 模子俄顷在 xAI 的 Cursor 公司账号里弗成使用了。

其时还在 xAI 上班的和解首创东说念主吴宇怀,在全员信里是这样说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争敌手提供 Claude 模子调用才智。」

其时,吴宇怀在信中写了一句话,颇为原理原理:

「这是坏音书亦然好音书。咱们的分娩力会被影响,但这也敦促咱们拓荒我方的编码居品和模子。」

为什么其时 xAI 的高层以为,拓荒我方的编码居品是要害?

其后发生的事情,公共都知说念了。xAI 的联创团队总计跑路,马斯克一气之下对 Cursor 使用了钞才智必杀:

上个月底,SpaceX 和 Cursor 共同告示,将在编程和学问类职责 AI 模子的教养上,伸开前所未有的计谋互助;而况,SpaceX 还赢得了以 600 亿好意思元收购 Cursor 的权力,或向后者支付 100 亿好意思元互助用度。

提防编程这个要害定语,背面还会 call back.

2.

最近,我看了一条 Cursor 早期投资东说念主、Anthropic 大喷子、T3 首创东说念主 Theo Browne 的视频。

原本点进去是看他喷 A 社和 SpaceX 何如蝇营狗苟,着力没预料,却看到了对于 SpaceX + Cursor 互助的,一个既另类却又很是合理的分析:

不说 600 亿的收购,就只说 100 亿的互助费——Theo 在视频里暗示,我方以为「哪怕仅仅交换到 Cursor 的用户数据,这 100 亿也值回票价了。」

是以是什么数据?如若你也去看 Theo 这条视频,他会讲得相配了了。但为了简约时代,咱们在这里浮浅轮廓一下:

咱们和 AI 的对话是一来一趟的,你提议问题/需求,他给你解答;coding agent 同理,只不外复返的是代码。

一次高质料的对话,通盘过程,包括用户提醒、模子念念考、agent 霸术、输出代码、考证——通盘这些东西合起来,不错称为一个无缺的 Agentic Loop——就成为了高价值的教养数据,再喂给模子去进行强化学习,就能进一步提升模子在实战场景下的发扬水准。

Cursor 有的,SpaceX 想要的,就是这些数据。

可这些数据从那边来呢?

谜底很浮浅:行为模子厂商,这种高质料数据的最告成开头,只关联词你我方拓荒的 coding agent 居品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

当今你应该剖释了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提议拓荒 xAI 我方的 coding 居品和模子这件事了。这件事 xAI 在其时照旧看了了了:

莫得我方的编码居品,就莫得高质料的强化学习数据;莫得高质料的数据,就教养不出着实实战才智强的 coding 模子。

固然有点暴论,但当今咱们不错点题了:模子厂商想作念出来着实能打的编程模子,作念我方的 coding agent 居品是独一的旅途。

3.

诳言语模子像个水晶球,用全网的语料教养出来,似乎大概解答万物,但并不代表它在通盘问题上都能给出高质料的谜底。

用 GitHub 上数以亿计的代码要求教养,自然也能教养出 coding 模子。这是「学习着力」的逻辑,亦然没问题的。毕竟编码任务的着力是不错考证的:代码能弗成运行,测试能否通过,着力摆在那里。

但是,通往着力的过程,是一个触及多关节决策、缺陷改革、意图对王人的复杂链条。每一次用户的给与、圮绝、补全、清除、追问、以致当模子好几次都搞不定或者完全搞错时的口舌——都是这一链条上的过程信号。

强化学习有两种监督阵势,一种叫作念着力监督,只看终末是否跑通。但是着力监督会催生「奖励黑客」的征象:模子为了能跑通可能写出冗余、脆弱、带逻辑破绽的代码,但因为测试过了,模子以为我方学对了。

而另一种叫作念过程监督,对推理旅途上的每一步进行打分。上述这些过程信号,唯有在 coding agent 运行环境里才智降生。GitHub 仓库里唯灵验率,哪怕是去看单独的提交历史,看 PR,都找不到灵验的过程信号。

在阑珊灵验、自主可赢得的过程信号的时候,一些模子厂商会弃取「蒸馏」的阵势,这个事情公共应该照旧知说念了。

蒸馏的逻辑很浮浅,给雷同的输入,安分模子输出什么,学生模子就学着输出什么。但是通过蒸馏,即便不错获取到念念维链,得到的仍然更接近于着力,而非被蒸馏的安分模子里面的概率漫衍。

一朝学生在推理中偏离了安分的轨迹,哪怕一个 token 不适当,都有可能发生偏离。

这背后是强化学习的基础限度:策略梯度定理要求,优化样本最好由刻下正在优化的模子我方去产生。这种数据叫作念 on-policy 数据。而通过蒸馏别家模子,在别东说念主的居品里产生的数据,来教养我方模子,斗鱼app2026世界杯中国官方下载都属于 off-policy 数据。模子自然不错从中学到东西,但学不到安分模子里面的概率漫衍信息。

而像 Cursor 这样我方就是 coding agent 居品的公司,掌持着最着实、灵验、高质料的教养数据。Cursor 居品本人,就是 coding 模子在实战环境中的最好教养场。

咱们不错通过 Cursor 年头的「翻车」,来诠释这个逻辑。

4.

APPSO 读者应该牢记,年头 Cursor 发布了 Composer 2,堪称「下一代专用编程模子」,技巧报说念写的相对保守,也莫得提供具体的模子底座信息。

着力很快,网友就在公开代码片断里发现了 Kimi 的模子 ID,截图传遍了拓荒者社群,逼得 Cursor 副总裁 Lee Robinson 露面澄莹:「Composer 2 如实是从开源底座起程的。最终模子简短唯有 1/4 的算力来自底座,剩下 3/4 是咱们我方训出来的。」

几小时后,Cursor 联创 Aman Sanger 也随着发了一条说念歉:「一运转没提 Kimi 底座是个虚伪。」

五天后,Cursor 放出了无缺的 Composer 2 技巧申诉,自大底座果真是 Kimi K2.5,授权方则是 Firworks AI,大致经由是在 K2.5 上作念教养,再陆续作念大规模强化学习(RL)。

但要害之处在于,Composer 2 的 RL 是运行在着实的 Cursor 会话当中,使用与分娩部署完全琢磨的器具和 harness。

Cursor 将这套经由叫作念「及时强化学习」(real-time RL),也行将模子的 checkpoint 告成部署到 Cursor 分娩环境中,不雅察用户的反应,相聚数据,团员成奖励信号——最快不错每 5 个小时迭代一次模子版块,然后陆续部署到 Cursor 里,日中必昃。

最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天科罚卓绝 4 亿次央求,每当用户输入字符、转移光标时,模子都会预计下一步动作,如若预计置信度高,则自大建议,用户按下 tab 即给与自动补全。

该功能弃取的是在线强化学习,在行业内极具特质。Cursor 不错以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模子才智给用户,告成在居品内相聚 on-policy 数据进行教养。

这种高频、接近及时的反馈回路,让 Tab 不错学习到极其精巧的用户意图。Cursor 方面知道,这种步调让 Tab 建议的圮绝率缩短 21%,给与率提升了 28%。

回到 Composer 模子本人。在事情搞了了了之后,一些 Kimi 职工也删掉了之前吐槽的的推文,Kimi 官方账号发表了道贺。

一家估值 600 亿好意思元(基于马斯克给的数字),不作念我方的模子基座的 coding agent 应用层公司,仍然不错通过居品自身的数据飞轮,世界杯官方网页版RL 出超越基座模子的稀奇编程模子。

是以与其说 Cursor 翻了车,不如说这反而是 coding agent 居品焦炙性的绝佳例证。

Cursor 在另一篇对于及时 RL 的著述里写到:「(教养编程模子)最大的勤劳在于建模用户。Composer 的分娩环境里不惟有实施敕令的野神思,还有监督和指示它的东说念主。模拟野神思容易,模拟使用它的东说念主却很难。」

这句话,现正在冉冉成为了在编程模子方面走在前沿的模子厂商之间的共鸣。如若你去看 benchmark 榜单和用户开阔评价,会发现哪些头部的厂商都在发力作念我方的 coding agent/编程居品。区别只在于谁离用户更近。

咱们以 SWE-bench、LLM-Stats 等相对巨擘的榜单为例,Claude、GPT、Gemini、Kimi 等模子基本霸榜前十,清一色都是有我方拓荒 coding agent 居品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模子厂商。

在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,莫得拓荒我方的 coding agent。

不外你会发现,这些反例模子,在愈加接近着实场景、幸免稠浊的更巨擘 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排行第九,在 SWE-bench Pro 上分数却掉到了 15% 傍边。

OpenRouter 的着实流量数据不错解释这种反差:该平台 2025 年申诉自大,Claude token 破费 80% 以上用于编程和技巧任务,而 DeepSeek token 破费主要鸠集于闲扯和脚色饰演。

莫得自家 coding 居品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的着实工程 benchmark 上,在用户用 token 破费投票的着实流量中,都会原形毕露。

不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确知道我方在作念一模一样的事情:「咱们在 Anthropic 自家的着实分娩编程环境上作念教养。」也即 Anthropic 把我方职工使用 Claude Code 的交互数据,反哺给 Claude 模子用来教养。

5.

在 AI 的演进历程中,分娩成分的界说发生了深切的位移。传统三大中枢成分——算力、猜想、教养数据,固然在总量上持续增长,但在结构上照旧出现了严重的失衡。

今天的各大 AI 巨头显赫提升了在算力上的本钱开销 (CapEx),让算力基建成为了刻下公论的主旋律。但施行上,特别是在编程鸿沟内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「饮鸩止渴」式地诈欺,模子在代码生成与逻辑推理上的鸿沟运转冉冉显现。

这亦然为什么,行业共鸣正在冉冉转向一个冉冉升空的新计谋高地:

对于任何但愿掌持顶级代码才智的模子厂商而言,确立自有的 coding agent 居品早已不再是可选的交易蹊径,而是确保底层模子不错持续进化的中枢地命线。

正如前边 APPSO 论证的那样,单纯学习公开数据等于只学习得手者的结局,却无法了解得手的旅途,这王人备不是正确的得手学应该有的神志。在着实的编程环境中,知说念发生了什么缺陷、怎么发生的、如何正确地集结和高效地实践需求等等——了解正确过程的价值,远超于得到正确着力本人。

唯有领有我方的编码居品,模子厂商才智获取高质料的「过程监督」信号,从而在编码/推理才智的下一阶段竞争中,确保我方仍有技巧护城河——

不然就不得不像 SpaceXAI 那样,用钱去跟 coding agent 居品公司去互助。

然而并不是通盘模子厂商都跟马斯克一样有钱,以及 2026 年运转的巨头势力差异、订盟与领地的争斗会变得愈加强烈,当一家阑珊自主 coding 居品的模子厂商终于回过味来的时候,只怕照旧莫得豪阔的互助伙伴不错挑选,互助的价钱也将水长船高。

好意思国模子巨头的情况公共开阔比较闇练了,在此不赘述。APPSO 也提防到,国内的主流模子厂商和 AI 巨头当中,绝大部分都照旧在 coding agent 居品上有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的念念路在作念:字节最初旧年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。

AI 小龙公司中,月之暗面是最早拓荒零丁 coding agent 居品的公司,主要以 CLI 界面的 Kimi Code 为主——不外 Kimi 此前有知道过,在原生编程居品这件事上,CLI 不会是结尾。

另一种杀青念念路是模子厂商自行提供 API 工作、Coding Plan。这样,不管用户使用何种 AI 拓荒环境,模子厂商都不错通过工作器端的 API 记载来获取最猛进度接近于原生 coding 居品的过程数据。

但这也仅仅接近,并非完全琢磨。中枢在于,工作器端 API 的央求-反应日记,与深度秉承的居品交互轨迹比拟仍有很大差距。

自建居品的厂商(举例 Cursor、Claude 桌面端、Codex)领有最告成的显式反馈信号,而 API 侧是相对依稀的隐式推断。浮浅来说,API 侧能看到用户请乞降反应,但用户终末是否罗致了这段代码、代码能否跑通、激勉了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终步履这一要害的标签,从而无法杀青最高质料的强化学习。

形而上来讲,话语即寰宇,代码即决策。代码不错抒发这个寰宇上绝大大都的任务,代码也会成为头部的放大器,让最顶尖的东说念主才放大数倍的分娩力。

唯有最顶尖的 coding 模子才配得上最顶尖的东说念主才。如若最初的模子厂商不喜爱 coding,例必将会掉出第一梯队。

自然,事实上每家模子厂商都不会不喜爱 coding——而是说,在新的范式下,哪些莫得自主可控的原生 coding agent 居品,极有可能冉冉过时于有居品的厂商。

就在前几天,MiniMax 也发布了桌面客户端居品的紧要更新:带有全新多 agent 编排架构的 Mavis 功能,而况也让客户端显赫改善了对 coding 任务的维持。

此前 MiniMax 仅仅推出了桌面端,但莫得加入原生 coding 和 agent 功能。

紧接着,在 5 月 15 日,阿里巴巴精良发布了 Qoder 1.0——这个居品从 IDE 的形态精良升级为一个无缺的 Agent 居品(阿里的官方叫法是智能体自主拓荒职责台)。

与此同期,xAI 的 Grok Build CLI,也终于精良推出了。

没错,就是 xAI 年头被 Anthropic 和 Cursor 封号之后,他们我方捣饱读出来的阿谁 coding agent.

这不,又多了好几个现成的案例。

看来,公共都以为 Cursor、Codex 和 Claude 桌面端走在正确的说念路上。

博亚体育中国官网入口

6.

把话题从 coding 膨胀到 agent 本人,情况亦然一样的。

编码任务的轨迹数据,在公开语料中如实如故能找到一些的(比如 GitHub 的提交记载/PR,尽管质料并不高)。但是 agent 任务的轨迹数据,包括并不限于转移和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。

是以咱们会看到,即使在 agent 操作的最小杀青旅途——浏览器插件上,这样个看起来极少都不高端的东西,险些每家模子厂商都会作念我方的。

OpenAI 早在 2025 年 1 月就作念了 Operator——与其说它是一个「AI 自动操作浏览器」的居品,不如说施行上就是一个大规模的数据相聚装配。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。

后续 OpenAI 还生息出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 亦然同理;最近 Kimi 不声不吭地也作念了一个叫作念 WebBridge 的名堂,其实就是一个浏览器插件。

即就是在已往两年里动作最克制的中国模子巨头深度求索,也在最近运转展露出对 Agent 的意思意思。

CEO 梁文锋此前给与采访时也曾提到这样的不雅点:数学和代码是 AGI 自然的训练场,有点像围棋,是一个阻滞的、可考证的系统,有可能通过自我学习就能杀青很高的智能。

这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当猜想训练场,而非交易化处所。

但是在本年 3 月,DeepSeek 一次性放出了十几个 Agent 有关岗亭,包括初次出现的模子策略居品司理(Agent 处所)等。其时的 JD 职责涵盖「主导 Agent 评测体系以及教养数据决策的联想」,要求中包括「深度使用 Claude Code、Manus」等居品。

APPSO 提防到,近期深度求索发布了 Agent 居品司理、Harness 居品司理等职位招聘信息——很昭彰,DeepSeek 要作念零丁、原生的 Coding/Agent 居品了。

此前贵府自大,DeepSeek V3.2 的教养过程中引入了近两千个合成的 Agent 教养环境和八万多条复杂指示。但是看起来,靠合成的教养数据只可带 DeepSeek 走到这里了,剩下的是合成不出来的部分:着实用户在着实环境里的着实得手和失败,必须靠自家的 agent 居品才智拿到。

DeepSeek 以一种很是克制的阵势作念了三年模子以及模子居品。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。

当主力依靠猜想的旅途撑持不住飞轮的时候,DeepSeek 终于步履了。

7.

终末,咱们回到开篇的故事。

笔据 The Information 征引知情东说念主士报说念,在给与马斯克 600 亿收购/100 亿好意思元互助的同期,Cursor 暗示不会与 xAI 互助拓荒新的模子,而是仍将聚焦于优化我方的 Composer 模子。

这可能意味着,即便被马斯克打通以致收购,Cursor 仍然要保留我方数据飞轮的主体性。

数据包摄的本人,是最要害的守密博弈点。

当通盘顶级模子厂商都作念了我方的居品,通盘顶级居品也都运转教养我方的模子,「模子公司」和「居品公司」之间本就不太了了的界限,似乎越来越不存在了……

这场博弈也才刚刚运转世界杯(中国)官网。

  声明:新浪网独家稿件,未经授权不容转载。 -->