关于 OpenAI 的一些思考

作者:Calvin

三周前,我离开了 OpenAI。我是在 2024 年 5 月加入这家公司的。

我想分享我的这些思考,是因为外界关于 OpenAI 在做什么的讨论充满了迷雾和噪音,但很少有人能第一手地描述在那里工作的文化到底是什么感觉。

Nabeel Quereshi 写过一篇非常棒的文章,叫做《关于 Palantir 的反思》,他在文中深入思考了是什么让 Palantir 如此与众不同。我想趁着记忆还新鲜,为 OpenAI 做同样的事情。你在这里不会看到任何商业机密,更多的是我对这个历史上最引人入胜的组织之一,在当下这个极不平凡的时期的一些反思。

开门见山地说:我离开的决定背后没有任何个人恩怨——事实上,我对此感到非常纠结。从一个自己公司的创始人转变为一个 3000 人大公司的员工,这种转变是艰难的。现在,我渴望一个新的开始。

工作的质量完全有可能把我再吸引回去。很难想象有什么比构建通用人工智能(AGI)更有影响力的事情了,而大语言模型(LLM)无疑是这十年来最重要的技术创新。我很幸运能够亲眼见证一些进展,并参与了 Codex 的发布

当然,这些只是我个人的观察和观点,并不代表公司。OpenAI 是个很大的地方,这只是我管中窥豹的一点心得。

文化

关于 OpenAI,首先要知道的是它的成长速度有多快。我加入时,公司还只有 1000 多人。一年后,已经超过了 3000 人,而我的在职时间已经能排进前 30%。几乎所有的领导层,他们现在的工作都和两三年前大相径庭。1

当然,当你扩张得这么快时,所有东西都会出问题:公司如何沟通、汇报结构、如何发布产品、如何管理和组织人员、招聘流程等等。不同团队的文化差异很大:有些团队总是在全力冲刺,有些则在照看大型的训练任务,还有些则以更稳健的节奏前进。没有所谓的“单一的 OpenAI 体验”,研究(research)应用(applied)市场(GTM) 部门的工作节奏和时间跨度都非常不同。

OpenAI 的一个不寻常之处在于,所有事情,我是说_所有事情_,都靠 Slack 运转。没有电子邮件。我在那里的全部时间里,可能总共只收到过 10 封邮件。如果你不善于组织信息,你会觉得这极度分散注意力。但如果你能精心管理你的频道和通知,也能让它变得相当高效。

OpenAI 是非常自下而上的,尤其是在研究领域。我刚来的时候,曾问起下个季度的路线图。得到的回答是:“这东西不存在”(虽然现在有了)。好的想法可以来自任何地方,而且通常很难提前判断哪个想法会最有成果。与其说有一个宏伟的“总体规划”,不如说进步是迭代式的,是随着新研究成果的出现而逐步揭示的。

得益于这种自下而上的文化,OpenAI 也非常精英主义(meritocratic)。从历史上看,公司的领导者主要是根据他们提出好点子并执行的能力而被提拔的。许多能力超群的领导者,在全员大会上做演讲或搞办公室政治这类事情上并不擅长。但在 OpenAI,这些远不如在其他公司那么重要。最好的想法往往会胜出。2

公司里有强烈的“立即行动”偏好(你可以直接动手去做)。不同但相关的团队,不约而同地想到类似的点子,这种情况并不少见。我刚开始时就在做一个与 ChatGPT Connectors 类似(但仅限内部)的项目。在我们决定推动发布之前,公司内部大概有三到四个不同的 Codex 原型在流传。这些项目通常是由一小撮人未经许可就开始的。一旦它们显示出潜力,团队就会迅速围绕它们形成。

Andrey(Codex 的负责人)曾告诉我,你应该把研究员看作是他们自己的 “迷你 CEO”。大家普遍倾向于捣鼓自己的东西,看看结果如何。这里还有一个推论——大多数研究都是通过“智力引诱”(nerd-sniping)一个研究员去解决某个特定问题来完成的。如果某件事被认为是无聊的或“已解决的”,那它可能就不会有人去做了。

优秀的研究经理影响力巨大,同时也极其稀缺。最优秀的研究经理能够将许多不同的研究项目联系起来,并促成一个更大规模的模型训练。优秀的 PM 也是如此(向 ae 致敬)。

我合作过的 ChatGPT 工程经理们(Akshay、Rizzo、Sulman)是我见过的最沉着冷静的客户。感觉他们真的什么大风大浪都见过了3。他们大多不怎么插手具体事务,但会招聘优秀的人才,并努力确保他们能获得成功。

OpenAI 调整方向的速度快如闪电。这是我们在 Segment 时非常看重的一点——随着新信息的出现,做_正确_的事情远比仅仅因为有计划就坚持到底要好。一个像 OpenAI 这样规模的公司仍然保持着这种精神,这是非常了不起的——谷歌显然做不到。公司决策迅速,一旦决定了方向,就会全力以赴。

公司承受着巨大的审视压力。我之前是做 B2B 企业服务的,所以这对我来说有点冲击。我经常会看到一些新闻在媒体上爆出,而公司内部甚至还没宣布。我告诉别人我在 OpenAI 工作,对方往往会带着一种对公司预设的看法。还有一些 Twitter 用户运行着自动机器人,专门检查是否即将有新功能发布。

因此,OpenAI 是一个非常神秘的地方。我不能告诉任何人我具体在做什么。有少数几个 Slack 工作区设置了各种权限。收入和烧钱的数据更是被严密守护。

OpenAI 也比你想象的要严肃得多,部分原因是赌注真的很高。一方面,目标是构建通用人工智能(AGI)——这意味着有很多事情必须做对。另一方面,你正在努力打造一个被数亿用户用来获取从医疗建议到心理治疗等各种服务的产品。再者,公司正在全球最大的舞台上竞争。我们会密切关注 Meta、Google 和 Anthropic 的动态——我相信他们也同样在关注我们。所有世界主要国家的政府都在密切关注这个领域。

尽管 OpenAI 在媒体上经常被诟病,但我遇到的每一个人实际上都在努力做正确的事情。鉴于其面向消费者的特性,它是几大实验室中最受瞩目的,因此也招致了很多诽谤。

话虽如此,你或许不应该把 OpenAI 视为一个单一的庞然大物。我认为 OpenAI 是一个像洛斯阿拉莫斯国家实验室那样起家的组织。它最初是一群科学家和工匠,探索着科学的前沿。这个团体碰巧无意中催生了历史上最病毒式的消费级应用。然后它又成长到有了向政府和企业销售的雄心。因此,不同资历、不同部门的人有着非常不同的目标和观点。你在公司待得越久,可能就越倾向于从“研究实验室”或“为善的非营利组织”的视角看待问题。

我最欣赏的一点是,公司在普惠 AI 方面真正做到了“言行一致”。最前沿的模型并不会被保留给某个需要签订年度协议的企业级客户。世界上的任何人都可以登录 ChatGPT 获得答案,即使他们没有登录账号。还有一个你可以注册使用的 API——而且大多数模型(即便是最先进或专有的)往往会很快地进入 API,供创业公司使用。你可以想象一个与我们今天所处的截然不同的世界,那里的运作方式会_非常不一样_。OpenAI 在这方面值得极大的赞誉,这至今仍是公司 DNA 的核心。

如果你经常阅读 ZviLesswrong 的文章,你可能会觉得安全问题被夸大了,但实际上安全比你想象的更受重视。有大量的人在致力于开发安全系统。考虑到 OpenAI 的性质,我看到更多的是对实际风险的关注(仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入),而不是理论风险(智能爆炸、权力寻求)。这并不是说没有人研究后者,绝对有人在关注理论风险。但从我的视角来看,那不是重点。大部分已完成的工作_并未公开发表_,OpenAI 真的应该多做些工作,把它们公之于众。

与其他在各种招聘会上随意派发周边的公司不同,OpenAI 基本不怎么送周边产品(即使是给新员工)。取而代之的是不定期的“上新”(drops),你可以订购库存商品。第一次上新时,因为需求太大,直接把 Shopify 商店搞垮了。内部甚至流传过一个帖子,教大家如何通过 POST 正确的 JSON 负载来绕过拥堵。

几乎所有东西的成本,与 GPU 成本相比都是九牛一毛。给你一个概念:作为 Codex 产品一部分而构建的一个小众功能,其 GPU 成本就和我们整个 Segment 的基础设施相当(虽然规模不如 ChatGPT,但也承载了相当一部分互联网流量)。

OpenAI 或许是我见过的最雄心壮志到令人敬畏的组织。你可能觉得拥有全球顶级的消费应用之一就足够了,但公司渴望在数十个领域展开竞争:API 产品、深度研究、硬件、编程 AI 智能体、图像生成,以及一些尚未公布的领域。这里是孕育想法并付诸实践的沃土。

公司非常关注 Twitter。如果你发了条关于 OpenAI 的推文火了,很有可能有人会读到并加以考虑。我一个朋友开玩笑说:“这家公司是靠 Twitter 的氛围感(vibes)运转的”。作为一家消费品公司,这或许不无道理。当然,关于使用情况、用户增长和留存率的数据分析仍然很多——但氛围感同等重要。

OpenAI 的团队比其他地方要灵活得多。在发布 Codex 时,我们需要几位经验丰富的 ChatGPT 工程师的帮助才能按时发布。我们和几位 ChatGPT 的工程经理开会提出了请求。第二天,就有两位超强的工程师准备好投入进来帮忙了。完全没有“等季度规划”或“重新调配人力”这种事。一切进展神速。

领导层非常显眼且深度参与。在像 OpenAI 这样的公司,这可能显而易见,但每位高管似乎都非常投入。你会看到 gdb、sama、kw、mark、dane 等人在 Slack 上经常发言。这里没有甩手掌柜式的领导。

代码

OpenAI 使用一个巨大的单一代码库(monorepo),其中大部分是 Python(尽管越来越多的服务开始使用 Rust,还有少数像网络代理这样的东西是用 Golang 写的)。这导致了很多看起来很奇怪的代码,因为写 Python 的方式太多了。你会同时遇到来自谷歌十年资深工程师为规模化设计的库,以及刚毕业的博士生随手写的 Jupyter notebook。几乎所有东西都围绕 FastAPI 来创建 API,用 Pydantic 进行验证。但并没有在全公司范围内强制执行统一的风格指南。

OpenAI 所有东西都跑在 Azure 上。有趣的是,在我看来,只有三个服务是值得信赖的:Azure Kubernetes Service、CosmosDB(Azure 的文档存储)和 BlobStore。这里没有真正能与 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 相媲美的服务。大家很少会去思考自动伸缩单元(auto-scaling units)。IAM 的实现也比 AWS 能提供的要有限得多。而且,公司有强烈的自研倾向。

在人员方面(至少在工程领域),有一条非常显著的 Meta → OpenAI 人才输送链。在很多方面,OpenAI 都像早期的 Meta:一个现象级的消费应用、初生的基础设施,以及对快速行动的渴望。我见过的大多数从 Meta + Instagram 挖来的基础设施人才都相当强。

把这些因素放在一起,你会看到很多核心基础设施都让人联想到 Meta。有一个内部重新实现的 TAO。一个旨在整合边缘认证身份的项目。我敢肯定还有很多我不知道的其他项目。

Chat 的理念根深蒂固。自从 ChatGPT 一炮而红后,_大量_的代码库都是围绕聊天消息和对话的概念构建的。这些基本元素已经如此深入骨髓,你最好不要轻易忽视它们。我们在 Codex 中确实稍有偏离(更多地借鉴了 responses API 的经验),但也大量利用了已有的成果。

代码为王。决策通常是由计划做这项工作的团队做出的,而不是通过某个中央架构或规划委员会。结果是,这里有强烈的行动偏好,也常常导致代码库中出现许多重复的部分。我至少见过六七个用于队列管理或 AI 智能体循环之类的库。

在一些领域,快速扩张的工程团队和工具的匮乏确实造成了问题。sa-server(后端的单体服务)有点像个垃圾场。CI 在主分支上崩溃的频率比你想象的要高得多。测试用例即使并行运行,并且只考虑一部分依赖,在 GPU 上也可能需要约 30 分钟才能跑完。这些并非无法解决的问题,但它提醒我们,这类问题无处不在,而且当你扩张得超快时,它们可能会变得更糟。值得称赞的是,内部团队正投入_大量_精力来改善这一状况。

我学到的其他东西

一个大型消费品牌是什么样的。直到我们开始做 Codex,我才真正内化了这一点。所有事情都以“专业版订阅用户数”来衡量。即使对于像 Codex 这样的产品,我们考虑用户引导时也主要是围绕个人使用,而不是团队。这对我这个主要来自 B2B / 企业服务背景的人来说,有点颠覆认知。你只需按下一个开关,从第一天起流量就来了。

大型模型是如何训练的(从宏观层面)。这其中有一个从“实验”到“工程”的光谱。大多数想法都始于小规模的实验。如果结果看起来有希望,它们就会被整合到一个更大的训练任务中。实验既包括调整核心算法,也包括调整数据组合和仔细研究结果。而在大规模端,进行一次大型训练几乎就像一个巨大的分布式系统工程。会出现各种奇怪的边缘情况和意想不到的事情。你的任务就是去调试它们。

如何做 GPU 算力规划。作为 Codex 发布的一部分,我们必须预测负载容量需求,这是我第一次真正花时间对 GPU 进行基准测试。要点是,你应该从你需要的延迟要求(总延迟、token 数量、首个 token 响应时间)出发,而不是自下而上地分析一个 GPU 能支持多少。每一次新的模型迭代都可能彻底改变负载模式。

如何在一个大型 Python 代码库中工作。Segment 是微服务和单体服务的结合体,主要使用 Golang 和 Typescript。我们没有 OpenAI 那么广泛的代码。我学到了很多关于如何根据参与开发的程序员数量来扩展代码库的知识。你必须为“默认能用”、“保持主分支干净”和“难以误用”这类事情设置更多的护栏。

发布 Codex

我在 OpenAI 最后三个月的一个重要部分就是发布 Codex。这无疑是我职业生涯的亮点之一。

背景是,在 2024 年 11 月,OpenAI 制定了一个 2025 年的目标,即发布一个编程 AI 智能体。到 2025 年 2 月,我们已经有了一些内部工具在流传,它们利用模型取得了很好的效果。我们也感到了发布一个专门针对编程的 AI 智能体的压力。很明显,模型已经发展到在编程方面非常有用(看看市场上涌现出的大量氛围感编程工具就知道了)。

我提前结束了陪产假,回来参与 Codex 的发布。我回来一周后,我们进行了一次(有点混乱的)两个团队的合并,然后开始了一场疯狂的冲刺。从开始(写下第一行代码)到结束,整个产品仅用了 7 周就构建完成了。

Codex 的冲刺可能是我近十年来工作最努力的一次。大多数晚上都工作到 11 点或午夜。每天早上 5:30 被新生儿吵醒。早上 7 点又赶去办公室。大多数周末都在工作。我们整个团队都拼尽了全力,因为每一周都至关重要。这让我想起了在 YC 的日子。

很难夸大这种节奏是多么不可思议。我从未见过任何组织,无论大小,能在如此短的时间内从一个想法变成一个完全发布并免费提供的产品。范围也不小;我们构建了一个容器运行时,对仓库下载进行了优化,微调了一个自定义模型来处理代码编辑,处理了各种 git 操作,引入了一个全新的交互界面,实现了网络访问,并最终做出了一个用起来非常愉快的产品。[4]((https://calv.info/openai-reflections#footnote-fn-4)

不管你怎么说,OpenAI 仍然有那种敢于发布的精神。5

好消息是,对的人可以创造奇迹。我们是一个由约 8 名工程师、约 4 名研究员、2 名设计师、2 名市场人员和 1 名产品经理组成的资深团队。如果没有这个团队,我想我们会失败。没有人需要太多指导,但我们确实需要大量的协调。如果你有机会和 Codex 团队的任何人一起工作,请记住他们每一个人都非常出色。

发布前一晚,我们五个人熬到凌晨 4 点,试图部署主单体服务(一个需要数小时的过程)。然后又回到办公室,为早上 8 点的发布公告和直播做准备。我们打开了功能开关,开始看到流量涌入。我从未见过一个产品仅仅因为出现在左侧边栏就能获得如此迅速的增长,但这就是 ChatGPT 的力量。

在产品形态方面,我们最终确定了一种完全异步的形式。与 Cursor(当时,现在它支持一种类似的模式)或 Claude Code 等工具不同,我们的目标是让用户可以启动任务,然后让 AI 智能体在自己的环境中运行。我们的赌注是,在终极形态中,用户应该像对待同事一样对待编程 AI 智能体:他们向 AI 智能体发送消息,它花一些时间完成工作,然后带着一个 PR 回来。

这有点像一场赌博:我们今天处于一个有点尴尬的状态,模型_很好_,但还不是_极好_。它们可以一次工作_几分钟_,但还不能工作_几小时_。用户对模型能力的信任程度差异很大。我们甚至还不清楚模型的真正能力是什么。

从长远来看,我确实相信大多数编程会变得更像 Codex。与此同时,看到所有这些产品如何发展将会非常有趣。

Codex(也许不足为奇)非常擅长在大型代码库中工作,理解如何导航。我看到的与其他工具最大的区别是,它能够一次性启动多个任务并比较它们的输出。

我最近看到有公开数据比较了不同大语言模型 AI 智能体创建的 PR。仅从公开数据看,Codex 已经生成了 63 万个 PR。这相当于自发布以来的 53 天内,每个工程师创造了 7.8 万个公开 PR(你可以自己猜测私有 PR 的倍数)。我不确定我这辈子是否做过如此有影响力的事情。

临别赠言

说实话,我最初对加入 OpenAI 是有些犹豫的。我不确定牺牲自由、有个老板、成为一个更大机器中的一个小齿轮会是什么感觉。我一直对我的加入保持低调,以防万一它不适合我。

我确实想从这次经历中得到三样东西……

  • 为模型如何训练以及能力走向何方建立直觉

  • 与优秀的人一起工作并向他们学习

  • 发布一款出色的产品

在回顾这一年时,我认为这是我做过的最好的决定之一。很难想象在其他任何地方能学到更多。

如果你是一个创始人,感觉你的创业公司真的停滞不前,你应该要么 1) 深入重新评估如何能有更多尝试的机会,要么 2) 去加入一个大的 AI 实验室。现在是构建的绝佳时机。但同时也是窥见未来走向的绝佳时机。

在我看来,通往 AGI 的道路目前是三强争霸:OpenAI、Anthropic 和 Google。基于各自的 DNA(消费级 vs 企业级 vs 坚如磐石的基础设施+数据),这些组织将采取不同的路径来实现目标。6 在其中任何一家工作都将是一次大开眼界的经历。


感谢 Leah 在我熬夜工作期间给予的巨大支持并承担了大部分育儿工作。感谢 PW、GDB 和 Rizzo 给了我机会。感谢 SA 团队的同事们教我入门:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val。感谢 Codex 核心团队给了我一生难忘的经历:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。我永远不会忘记这次冲刺。

Wham.

  1. 每当有领导离职时,人们很容易过度解读其中的戏剧性,但我认为大约 70% 的情况都仅仅是这个原因。

  2. 我确实认为我们正处于一个轻微的阶段性变化中。公司正在从外部进行大量高级领导的招聘。我总体上支持这一点,我认为公司能从注入新的外部 DNA 中获益良多。

  3. 我感觉,扩展有史以来增长最快的消费级产品,这个过程能锻炼出很多能力。

  4. 当然,我们也是站在巨人的肩膀上。CaaS 团队、核心强化学习团队、人类数据团队和通用的应用基础设施团队让这一切成为可能。

  5. 我们也一直在保持这种势头

  6. 几周前我们看到 Meta 有一些重要的人员招聘。xAI 发布了在基准测试中表现出色的 Grok 4。Mira 和 Ilya 手下都有优秀的人才。也许这会改变格局(人才是优秀的)。但他们还有一些追赶工作要做。