OpenAI 应用 CTO 和 Codex 负责人:AI 正在重塑构建软件的方式
宝玉

OpenAI 应用 CTO 和 Codex 工程负责人,在 The Pragmatic Summit 上聊了 OpenAI 内部工程师的真实工作状态。Codex 不再只是写代码的工具,已经进化成了“队友”。工程师合上笔记本去开会,回来发现活已经干完了。设计师写的代码比六个月前的工程师还多。一个 PM 靠 Codex 把自己变成了 50 倍效率的项目经理。
两位受访者: Vijaye Raji(以下简称 VJ),OpenAI 应用 CTO(CTO of Applications),负责 ChatGPT 和 Codex 的产品工程,此前创办了产品实验平台 Statsig,2025 年 9 月被 OpenAI 以 11 亿美元收购,在微软和 Meta 有超过 20 年经验;Thibault Sottiaux(以下简称 Tibo),OpenAI Codex 工程负责人,此前在 DeepMind 和 Google 工作,现直接管理 33 人的 Codex 团队。
主持人 Gergely Orosz 是科技行业最有影响力的工程管理类 newsletter The Pragmatic Engineer 的作者。本次访谈来自他举办的首届 Pragmatic Summit(2026 年 2 月 11 日,旧金山),约 500 名工程领导者和实践者参加。
要点速览:
- OpenAI 内部,Codex 在 6 个月内从“辅助工具”进化成“队友”,顶级工程师每周消耗数千亿 token,工程师可以把任务派给服务器端的 Codex 然后去开会
- 瓶颈在不断转移:代码生成解决了,代码审查就成了新瓶颈,接下来是集成部署,团队需要持续追踪下一个卡点
- 设计师写的代码比六个月前的工程师还多,面试者开始问“你们给我多少算力”,职能边界正在消融
- Codex 能在夜间自主运行 QA 测试、独立训练模型并写 PDF 报告,研究员多次发现自己低估了 Codex 的能力
- 今年夏天 OpenAI 将接收约 100 名应届生,团队认为“AI 原生”新人将有独特优势
- 6 个月内预计再提速一个数量级,多 Agent 协作网络将可实现“24 小时从零重建一个浏览器”

【1】Codex 已经不是工具,是队友
Gergely 开场直接问 VJ:OpenAI 内部正在发生什么?
VJ 说,过去 6 个月他亲眼看到了一条清晰的演进路线:Codex 从工具,变成功能扩展,再变成 Agent(智能体),现在已经是队友了。

“I fully expect engineers to name their agents now and call themselves as their teammates.” (我完全预期工程师们会给自己的 Agent 起名字,把它们当作自己的队友。)
他补充了一些内部数据:OpenAI 有使用排行榜,一些工程师每周消耗的 token 达到数千亿级别。而且这不是一个 Agent 在工作。就在上周,团队内部上线了一个叫 Codex Boxes 的功能,可以在服务器端预留开发环境,工程师在自己的笔记本上编排任务指令,然后把笔记本合上去开会,回来时所有工作已经并行完成了。
“People shut down their laptop, go to a meeting, come back and then all of the work has been done.” (人们合上笔记本,去开个会,回来时所有工作都已经做完了。)
VJ 认为这种工作方式会在几个月内成为行业常态。
【注】 Codex 是 OpenAI 的 AI 编程工具,2025 年 5 月首次发布,既有云端版(在隔离容器中独立运行任务),也有命令行版(Codex CLI,在本地终端运行)。目前支持 VS Code 扩展、桌面应用、Web 应用等多个入口。截至 2025 年底,约 95% 的 OpenAI 工程师在使用 Codex,每周合并的 PR 增加了 70%。
不过 Gergely 补充了一个重要的现实:他和 OpenAI 内部很多工程师私下聊过,并非所有人都 100% 用 Codex 写代码,使用程度存在差异。但有一个团队确实走在最前面——Codex 团队自身。
【2】瓶颈不断转移:从代码生成到用户需求理解
Gergely 接着问 Tibo:Codex 团队具体是怎么工作的?
Tibo 说团队几乎每周都在重新发明自己的工作方式。核心方法论是识别瓶颈,然后解决它,但瓶颈会不断转移。最初是代码生成,然后是代码审查,现在变成了:怎么更快理解用户需求?怎么分类工单?怎么从 Twitter、Reddit 等渠道综合反馈,形成产品策略?每个环节都在尝试用 Agent 来加速。
他讲了一个有趣的细节:最近有人想加入 Codex 团队,在面试时问了一个问题。
“How much compute am I going to get to build products at OpenAI?” (在 OpenAI 做产品,你们能给我多少算力?)
Tibo 说自己愣了一下。过去这种问题只有训练大模型的研究员才会问。现在工程师也开始关注**“人均算力配额”**了。
这个变化说明了什么?Tibo 认为,如果你有好品味、好想法、懂得怎么做软件,现在的杠杆率是前所未有的。

放到整个 OpenAI 来看,VJ 补充说,产品直觉仍然是核心。他自己也在用 Codex 写代码,但发现很多时候瓶颈不在于代码本身,而在于想象“产品应该长什么样”。这部分依然需要人类来做——除非将来我们开始为 Agent 而非人类构建软件。
VJ 还讲了个小故事:他在飞机上用 Codex 写代码,空乘过来让关电脑,他把笔记本半合着放下去,不想中断 Agent 的运行。他说现在每个人都半开着笔记本到处走。
他觉得这其实让写软件变得更有意思了——反馈周期大幅缩短,看到产品成型、测试验证、再回到 Codex 迭代,成就感来得更快。
【3】新的工程实践:并行探索、设计师写代码、夜间自动测试
Gergely 追问:有哪些新的、不同的、甚至“奇怪的”工程实践开始出现?
Tibo 提到了几个变化。
第一个是并行探索。 过去遇到复杂的技术选型,团队会写设计文档(design doc),开会讨论,排除备选方案。现在他们会同时让 Codex 实现多个方案,然后看哪个实际效果更好。决策从“讨论后择一”变成了**“实现后比较”**。
第二个更让人意外:角色边界模糊了。
“Our designers are shipping more code than engineers were shipping six months ago.” (我们的设计师现在产出的代码,比六个月前工程师的产出还多。)
这是因为模型的代码质量已经好到可以直接合并。
VJ 补充了一个小场景:Codex 团队做视频处理,经常需要用 ffmpeg(一个功能强大但命令参数极其复杂的视频处理工具)。没人记得住那些命令行参数,现在直接告诉 Codex“我要做什么”,它就生成正确的命令并执行。
VJ 还指出了一个更大的图景:瓶颈转移是连锁反应。你解决了编码问题,每个工程师的代码产出就翻了五倍。代码多了,代码审查就成了新瓶颈。审查解决了,集成和部署(CI/CD,持续集成/持续部署)又会成为瓶颈。团队需要不断去解决下一层问题。

Gergely 接着问了一个他觉得”像科幻”的实践:通宵运行。
Tibo 解释说,很多人对 AI 编程的印象还停留在“加强版自动补全,10 分钟搞定一个小功能”。但实际上模型的能力远超这个范围,给它一个大任务,它可以连续运行好几个小时。
Codex 团队搭建了完整的环境和技能配置,让 Codex 在夜间自主进行 QA(质量保证)测试循环,持续运行并标记回归问题。工程师第二天来看结果就行。
然后 Tibo 提到团队里一位负责训练模型的研究员的感受,让他自己都觉得“既兴奋又有点沮丧”:
“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.” (每次我以为自己比 Codex 强,最后都发现是我错了,只是提示词没写对。)
这位研究员发现 Codex 已经能够独立训练一个模型,训练完成后还会写一份 PDF 报告,包含自己的发现和洞察。团队拿到报告后找出最有价值的方向,再把新任务输入 Codex 继续迭代。
【注】 这段描述了一个“AI 改进 AI”的循环:Codex 训练模型 → 输出报告 → 人类筛选方向 → Codex 继续迭代。这在 AI 研究中被称为“自我改进循环”(self-improvement loop)。
Gergely 还提到另一个实践:Codex 团队每周开数据分析会时,会当场启动 Codex 线程。Tibo 描述了具体流程:会议开始时,大家提出仪表盘上没有现成答案的问题。数据分析师马上启动 Codex 线程,让它在后台处理。20 分钟后答案就出来了,会议最后 10 分钟讨论结果。一场会议同时处理 5-6 个问题。
“It's like having little consultants working for us in the background.” (就像有一群小顾问在后台帮你干活。)
线上事故响应也是一样。Codex 帮忙诊断问题所在、找到最快的恢复路径,信息收集和问题定位的速度明显提升。
【4】100 名应届生即将入职,“AI 原生”一代来了
行业里一直有个争论:AI 编程时代,初级工程师还有价值吗?Gergely 提到他和 OpenAI 的工程负责人聊过,得知 OpenAI 正在招收早期职业工程师,让两位受访者展开说说。
VJ 说,OpenAI 正在大量招聘应届毕业生,今年夏天的实习项目也在扩大,这一批大约有 100 人。他认为新一代软件工程师将是**“AI 原生”(AI native)** 的,从第一天起就把 AI 当作默认工具。给他们机会在这样的环境中成长,效果会很惊人。
Tibo 从组织角度补充了他的做法:Codex 团队是极度扁平化的,他一个人有 33 个直接下属。他解释说,当个体的生产力因 AI 大幅提升时,传统的层级管理结构很容易成为瓶颈。一个人卡住所有决策,在这个速度下显然行不通了。
新人入职的第一个工具就是 Codex 本身。用它问问题、浏览代码库、了解同事在做什么、接收日报。而负责入职培训的人,恰恰是最近才刚入职的人——因为他们对”怎么上手”的记忆最新鲜。

Tibo 提到了一个具体的人:一个叫 Ahmed 的应届生,6 个月前加入团队,表现非常出色。
“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.” (我的大脑估计已经开始走下坡路了……Ahmed 的大脑正值巅峰。)
这句自嘲背后是一个观察:新人没有需要覆盖的旧习惯,精力和学习速度都是优势。
Gergely 扮演了一回“魔鬼代言人”:在场很多资深工程师都见证过新人从菜鸟成长为优秀工程师的过程,而这个过程中基础训练至关重要。如果新一代从一开始就用 AI 写代码,跳过了前辈们经历的那些基本功训练,他们的基础够吗?
Tibo 的回答是:基础依然极其重要。团队花大量精力设计整体代码架构,做代码审查,不是把一切都扔给 Codex 然后闭上眼睛。关键在于环境设计——如果你的代码库结构好、护栏(guard rails)设置得当,新人就能在这个框架下发挥出惊人的生产力。
【5】25 年行业变迁:从 IntelliSense 到 AI,每一代都被质疑
Gergely 问 VJ,软件工程师的日常角色到底变成了什么样?
VJ 先说了一句总原则:基础永远不会过时。然后他拉开了时间线。他在这个行业干了 25 年,经历过很多范式转变。在微软时期,他参与开发了 Visual Studio 的编辑器和语言服务(Language Services)。
【注】 VJ 在微软工作近十年,参与了 Visual Studio 编辑器、Windows 应用框架、SQL Server 建模工具等核心项目的开发。他也是 Small Basic(一种简化版 BASIC 语言)的创造者。
他回忆第一次看到 IntelliSense(Visual Studio 的代码自动补全功能)时的感受:你打一个点号,选项就弹出来了,那感觉很酷。
Gergely 接了一句:我入行的时候,周围的开发者说“用 IntelliSense 的不是真正的开发者”。
VJ 笑着说,对,再往前还有人说不写汇编就不是真正的工程师,然后是 C++,然后是 JavaScript。每一层抽象提升时,都有人质疑。

他的结论是:这些都不重要。重要的是你有扎实的基础,有产品直觉,能够在技术栈上上下下地解决问题。这些能力不会过时。
【6】一个 PM 用 Codex 把自己变成了 50 倍效率的项目经理
Gergely 问了产品经理和设计师的角色变化。
VJ 的核心观点是:只要我们还在为人类构建产品,就需要人类的设计师和产品经理。产品感觉(product sense)和设计感觉(design sense)没有替代品。但这些角色也在变得更高效——PM 在写代码,设计师在写代码,设计师把设计直接带入可运行的原型,在找工程师之前就先做了验证。PM 也在用 Codex 做幻灯片和 Excel 插件。
Tibo 补充了内部的知识分享机制:Slack 里的 Codex 频道和“hot tips”频道非常活跃,团队定期举办 hackathon 和 show and tell,尽量让好的 AI 使用方法快速扩散。
然后 Tibo 讲了一个具体案例。Codex 团队只有一个产品经理,叫 Alexander Embiricos。这一个人怎么管一个 33 人的工程团队?
答案是 Codex 本身。Tibo 描述了他最近一次 bug bash(集中找 bug 的活动)的流程:一个小时内大家走查即将发布的功能并提交反馈,结束后 Alexander 让 Codex 汇总反馈、输出到 Notion 文档,再让 Codex 把问题拆分成 bug 报告和功能改进请求、录入 Linear(项目管理工具)、分配给对应的工程师,之后还用 Codex 跟进每个人的进展。
“He's becoming like a 10x, like 50x program manager just by leveraging AI.” (他通过 AI 把自己变成了 10 倍、50 倍效率的项目经理。)

【注】 Alexander Embiricos 是 Codex 的产品负责人(Product Lead),此前曾创办过面向工程师的结对编程产品,在加入 OpenAI 之前在 AI 辅助开发领域有多年经验。
VJ 补充说,他参加过很多 Demo Day(内部演示日),注意到一个趋势:演示项目的深度持续增加。不再只是“看看这个能做什么”的表面展示,很多项目已经处理了各种边角情况,是真正可用的产品。
【7】Token 成本:别问用了多少 token,问队友值多少钱
Gergely 先做了一个重要的前提说明:OpenAI 内部所有人都有无限 token,没有成本限制。观众席上很多人笑了——这确实是个大特权。外部世界成本仍然是个实际问题。对于受限环境下的团队,两位有什么建议?
VJ 说,成本是 OpenAI 持续在思考的问题。一方面是持续让模型更强更便宜。另一方面,他认为思维方式需要转变:想象你有一个 24 小时工作的队友,你可以给它分配 Linear 任务或 Jira 任务,完全期望它能独立完成。那么问题就变成了**“你愿意为这个队友付多少钱”**,而不是“用了多少 token”。如果按每个工程师配备四五个 AI 队友来衡量生产力,成本就更容易算清楚了。
Tibo 从另一个角度补充:要看 AI 替代了什么成本。比如过去需要 15 个工程师花时间筛查整个功能 backlog(待办列表),找出哪些可以轻松实现,现在这件事几乎免费。虽然不是每个公司都能提供无限推理资源,但过早限制推理用量是一个风险。他的建议是:至少给公司里最优秀的人提供充足的推理资源。

【8】未来预测:6 个月内再快 10 倍,代码将被抽象化
最后一个问题:两年后,软件工程和工程管理会是什么样?
Tibo 先笑了一声说,两年太久了。他只敢预测 6 个月:速度将再提升一个数量级。另一个确定会实现的是多 Agent 协作网络,大量 Agent 可以协同完成非常大的目标。比如 Cursor 曾演示过的“从零重建一个浏览器”,24 小时后就能得到一个数百万行代码的产物。这种代码量已经超出人类能理解的范围了。
【注】 Tibo 提到的 Cursor 演示,指的是 AI 编程工具 Cursor 展示的大规模代码生成能力。
所以 Tibo 预测,接下来会出现围绕代码的“护栏”:你不需要再看代码本身,而是通过某种方式证明它是正确的(形式化验证),或者确保它被约束在安全范围内,只关注输入和输出。代码将被抽象化,真正重要的是系统的属性。
VJ 从历史角度做了补充:软件的抽象层级一直在提升,让我们能用更少的代码构建更大的产品。现在这个趋势的加速度本身在增加。但他也提了一个担忧:当系统足够复杂时,调试会变得极其困难。未来的工程师可能更像医生诊断病人——靠“症状”来定位问题,工具也会朝这个方向进化。
Tibo 最后加了一个近期预测:年内就会出现个人助理层。你不再需要监控一百两百个独立的小 Agent,而是有一个总控的个人助理,它代表所有后台 Agent 的工作,你只需要和这一个助理对话。

VJ 对整体变化速度做了一个判断:他在行业里 25 年,经历过互联网泡沫、Y2K、移动革命、社交网络革命。这一次完全不同。
“I don't think I've ever seen anything like this. Some of these charts don't make sense.” (我觉得我从来没有见过这样的事情。有些增长曲线根本说不通。)
规模更大,速度更快。
这场对话透露的核心信号有三个。
第一,AI 编码在 OpenAI 内部已经不是“辅助”,而是“协作”甚至“委托”。
第二,瓶颈在持续转移——每解决一层就暴露下一层,从代码生成到审查到部署到需求理解。
第三,“基础”的定义在悄然变化:会写代码正在变得不那么稀缺,而产品直觉、系统思维和在抽象层之间灵活移动的能力正在变得更稀缺。
悬而未决的问题是:
- 无限 Token 环境下催生的工作方式,能否在成本敏感的现实世界中复现?
- 当代码被抽象到不需要人看时,安全性和可审计性怎么办?
- AI 原生的新一代工程师,长远来看到底是更强还是基础更薄弱?
这些问题没有人能给出确定答案,但这场对话至少让我们看到了变化正在发生的速度和方向。