温岭做鞋子的网站网站建设的主要目标
2026/2/16 11:50:52 网站建设 项目流程
温岭做鞋子的网站,网站建设的主要目标,百度经验官方网站登录入口,易优cms二次开发在发布前#xff0c;OpenAI 内部甚至做好了“几天后就关掉”的心理准备#xff1b;最初的目标#xff0c;只是收集一点真实用户数据。那时没有人预料到#xff0c;它会在几天内引爆整个世界#xff0c;更没人能提前画出那条指数级增长的曲线。 “ChatGPT 并不是 OpenAI 精…在发布前OpenAI 内部甚至做好了“几天后就关掉”的心理准备最初的目标只是收集一点真实用户数据。那时没有人预料到它会在几天内引爆整个世界更没人能提前画出那条指数级增长的曲线。“ChatGPT 并不是 OpenAI 精心策划出来的。”“Agent 和 RL 后训练本质上是一回事。”在发布前OpenAI 内部甚至做好了“几天后就关掉”的心理准备最初的目标只是收集一点真实用户数据。那时没有人预料到它会在几天内引爆整个世界更没人能提前画出那条指数级增长的曲线。而这场“意外爆炸”的背后其实只是来自一个12人的 “RL Team” 和一整套外界至今都没有完全看清楚的工作方式。Ps当然这个团队的前 LeaderJohn Schulman 可是现代强化学习的奠基人。强化学习如何真正跑在大模型上post-training 是怎么从一个不存在的概念变成支撑 GPT-4、GPT-5 的核心管线OpenAI 内部到底靠什么把模型一轮一轮推到新的上限近日OpenAI一位华人研发工程师翁家翌在一期播客采访中曝出了不少猛料。可以说是把如今的顶流OpenAI过去三年的重大转折、技术取舍、Infra、甚至包括那次各个谣传版本的“宫斗风波”。可以说是以一名深度参与的“老员工”视角道出了个中款曲。话说回来如果有一直关注OpenAI的Blog你就会发现翁家翌这个名字的含金量。虽然他很少出现在 OpenAI 新品发布的直播中但他却是极少数完整参与了从 ChatGPT 3.5 、GPT-4、GPT-4V、GPT-4o、GPT4.5、 GPT-5 的完整后训练链路的工程师之一。他和团队成员亲手搭建了 OpenAI 内部的 RL 与推理基础设施——也正是这套 infra决定了模型能不能“继续变好”。ps翁家翌 在 2022 年 7 月入职 OpenAI 之前就已经是一名小有名气的开源开发者了比如 Tianshou、EnvPool 等开源项目都得到了业内人士的关注。如今翁家翌已经是在 AI 研发圈颇受关注的中国工程师和技术贡献者。目前在OpenAI 担任研发工程师参与过 ChatGPT、GPT-4、GPT-5 等重要模型训练和基础设施建设的工作。他在强化学习和 AI 训练系统方面有重要贡献他的成长轨迹也具有代表性本科毕业于清华大学计算机系随后在卡内基梅隆大学深造之后加入 OpenAI在大型语言模型的后训练架构和强化学习基础设施上发挥了关键作用。作为从中国顶尖计算机系走向世界 AI 创新前沿的年轻工程师翁家翌花了近1个小时的时间深度探讨了自己在OpenAI工作3年多以来的所见所感同时也讲清楚了几个外界长期误解的问题近两年AI圈的研究范式的天平为什么正在向“工程能力”倾斜而不是原来的PhD 训练为什么在 OpenAIidea 很便宜infra 才是最稀缺的生产力研究员应该会被AI先取代其次是 Infra最后是 Sales。为什么很多研究瓶颈本质上只是 bug 还没修干净以及为什么 ChatGPT 的成功更像是一场被快速迭代“逼”出来的结果而不是一次完美设计。在翁看来基础模型公司的生死线指标就是单位时间内迭代速度和成功率。OpenAI几乎不Care外部压力唯一的那次就是DeepSeek时刻真正引起了内部的警觉因为他们的迭代速度。他进一步透露说OpenAI 已经很长时间都没有为了刷 LMSys 之类的榜单去特意做什么。除了 OpenAI 内部的方法论翁家翌也被主持人何泰然问及了2024年年初的那场“Sam”被开除的风波并回应核心原因就是不信任“Ilya 看到了什么”完全是空穴来风的谣传。而对于 Sam 的回归以及 Ilya 的离开翁也解释了自己的看法可以将 Sam 抽象成一种 Identity而这种 Identify 在 OpenAI 是无可替代的。翁家翌还表示目前团队正在重构一套Infra为下一代OpenAI系统做准备。接下来五年scaling 的最大瓶颈其实并不在算力而是现有方法还没有真正 scale 到极限。总之“Infra 是一个无底洞”不过翁也坦承自己所做的也并非不能替代。而 OpenAI 所做的外界并非完全不能复刻。播客本身的内容长达2个多小时但小编只节选了跟OpenAI相关的部分并为大家精选梳理了下面的精彩对话。希望尽可能帮大家还原一份“翁氏 OpenAI 内部执行笔记”。Offer取舍没有去谷歌幻方 VS OpenAI何泰然你当时是不是一入学就已经开始考虑找工作的事了整个过程大概是怎样的翁家翌算是的。一开始我投了大概 18 家公司最后只收到了两个 offer一个是 Google另一个是 OctoML也就是陈天奇老师的公司。当时我心里其实很明确如果只有这两个选择我会去 OctoML而不是 Google。何泰然你刚才说“Google 没什么意思”这个“没意思”你当时是怎么判断的翁家翌主要是我不太想在大厂里当一个螺丝钉做一些自己兴趣不大的事情比如前后端这类工作。后来我自己也想得更清楚了一些又继续去面试之后拿到了幻方浩方的一个 offer——他们当时说要做 AI Lab后来就是 DeepSeek。我当时其实是拿了这个 offer 的但最后也没有去。何泰然所以你最后去了 OpenAI。现在回头看如果“开天眼”的话当时你的选择其实是 DeepSeek 和 OpenAI 之间的取舍对吧而且幻方那个方向也不是量化而是 AI。翁家翌对幻方当时做的是 AI Infra。如果我当时没有其他更好的 offer我大概率会选幻方。何泰然你说的“其他 offer”是指除了 OctoML 以外的吗翁家翌对。后来其实还有 OpenAI以及 NVIDIA。NVIDIA 当时也是做 AI Systems。FAIR 其实也面过但最后因为一些流程原因把我拒了。何泰然所以你当时真正摆在桌面上的选择大概是幻方、OpenAI、NVIDIA甚至还有 TikTok 之类的可能性。最终你选了 OpenAI。这个决定当时是怎么想清楚的翁家翌当时我觉得OpenAI 一直在做强化学习在那个时间点它和 DeepMind 是我心里 AI 领域最强的两个 research lab。我原本甚至没太敢想自己能进去这件事本身能拿到 offer 就已经觉得很幸运了。我更看重的是一个机会去真正体验世界最前沿的 research 是怎么被系统性地做出来的而不是像在学校里几个 PhD 手搓一个项目缺少方法论整体感觉很别扭。我想看的是一个成熟的工业级研究机构到底是如何组织研究、推进项目的。入职 OpenAI动机、方法论与“研究该如何被做出来”何泰然你当时去 OpenAI是直接进了 John Schulman 的组对吧是他亲自招的你备注John Schulman 是OpenAI早期的核心人物是OpenAI的联合创始人可以说是现代强化学习奠基人之一。翁家翌对是 John Schulman 面的我也是他把我招进去的。我一直非常感激他给我这个机会。甚至到他后来离职那天我真的难过了一个下午把电脑关了什么事都没做。何泰然听起来他当时对你是挺认可的。你有问过他为什么会选你吗翁家翌问过。他跟我说过几个点。一个是他觉得我 GitHub 非常“干净”工程质量很好。另外一点其实也跟他的评价体系有关。他本身就很认同一个判断如果一个人有扎实、系统性的工程能力把这样的人招进来对任何研究项目都是正向加成的。只是以前很多人没有把这一点当成核心指标。何泰然那你们面试过程中有没有什么比较有意思的细节你觉得自己是怎么打动他的翁家翌最后一轮面试是他亲自出的题是一个非常 end-to-end、开放性的任务。他给了我三个小时要求从零开始写一个完整的东西。我大概两个小时就做完了然后当场给他演示。演示的时候刚好暴露了一个 bug我就现场把它修掉了整个流程也都走通了。可能在他看来我既能把工程完整跑起来遇到问题也能快速定位和修复同时在技术理解上也还过得去。翁家翌后来我才知道这道题他一共只给过两个人做过一个是我另一个是现在在做 Codex 的那位 entry-level 同事。我们两个都通过了。何泰然那通过率是 100%。翁家翌是的。在 AI 时代工程能力要优先于 PhD何泰然在继续聊 OpenAI 之前我其实挺好奇一件事你当时找工作的时候有没有认真考虑过读 PhD翁家翌没有。何泰然为什么这么确定翁家翌因为我接触过不少工业界的人发现如果你的目标是进工业界那读 PhD 很多时候是在浪费生命。你完全可以把 master 作为跳板通过项目、实习和实际产出去满足工业界对 PhD 的“隐性标准”。比如你在本科或 master 阶段攒够足够有区分度的 research 或 engineering 经验做出一些真正能拉开差距的项目那你是可以和同一批 PhD 在同一个赛道上竞争的。关键在于差异化而不是学历本身。何泰然所以你其实很早就想清楚了自己一定要走工业界这条路。翁家翌对。我不太想走学术那条路。教书、做教授都太卷了也不是我真正想要的生活。而且你要为了一个项目不停拉 funding各种限制很多。我会觉得不如直接去工业界把精力用在真正能推进事情的地方。何泰然如果从招聘的角度来看比如我们公司同时面对一个 master 和一个 PhD你会不会觉得这两种背景培养出来的能力本身就不一样PhD 更多训练的是学术能力怎么写 paper、怎么把故事讲圆、怎么把图画得好、怎么对外发表。你觉得这些能力对公司重要吗翁家翌我觉得在某种程度上是有价值的它确实是一种训练。但如果和极致的工程能力放在一起比较放在当下这个 AI 的时代工程能力的权重明显更高。何泰然为什么你现在会这么确定毕竟你自己也发过 paper也做过很受欢迎的开源 infra 项目两边其实都体验过。翁家翌我引用一句我同事说过的话。他本身也是 AI 方向的 PhD还做过一个很出名的 AI framework。他说过一句很直接的话教一个 researcher 把 engineering 做好要比教一个 engineer 做好 research 难得多。Idea is Cheap前沿探索本质上拼的是谁家Infra的修Bug速度翁家翌原因在于现在很多 research lab 的前沿探索本质上拼的是 infra 的正确性。只要 infra 是对的接下来比拼的就是单位时间内你能跑多少轮实验、迭代多少次。而Idea 的话本身其实很便宜。你找几个人讨论一下很快就能冒出来一堆想法然后你就去验证。你只要能验证好然后你就相当于这是你的 research work。你其实不用动那么多脑子因为那些真正“动脑子”的人往往是已经在一个领域里深耕很多年的研究者比如 Alec Radford 这种从 GPT-1 的时代就开始在做这件事。他们的 research 直觉是长期积累出来的比普通 PhD 要有用得多。而大多数情况下你只需要和这些人讨论就够了。Idea 的成本非常低关键是执行和验证。剩下比拼的就是你在单位时间内能够验证多少有效的idea。备注Alec RadfordOpenAI早期核心研究科学家关键人物之一GPT-1、GPT-2、GPT-3的作者对外很低调是与John Schulman 互补的人物。何泰然所以本质上是infra 是否正确迭代是否足够快。现在很多 PhD 并不是围绕这个目标被训练出来的。翁家翌对他们的培养重点不在这里。我认为现在的学术培养体系本质上是在训练一种相对“友好”的学术研究路径。但这种能力在公司里同样会自然生长。只要你在一个领域工作足够久就会形成研究直觉知道什么是值得做的什么是没必要投入的。何泰然所以说idea is cheap。真正值钱的是很强的 engineering 能力能把 infra 快速迭代起来。有了这个之后验证 idea 的成本会变得很低甚至 agent 都能看懂。翁家翌在我的认知里每一家公司的 infra 都存在不同程度的 bug而谁修得多、修得快谁的模型就训得更好。何泰然那是不是可以说LLaMA 追不上 GPT是因为 bug 太多翁家翌也许吧我不确定但这是一个合理的猜测。更喜欢“卖铲子”这一层何泰然所以你很早就意识到整个 pipeline 能不能跑起来关键不在算法创新而在于正确的超参、可靠的 infra以及能支持快速迭代的系统。翁家翌对而且我个人对 research 里反复调参这件事并没有兴趣对我没有吸引力。我更喜欢做“卖铲子”的那一层。何泰然你更想搭一个 playground把基础设施打好让别人进来玩、发论文。翁家翌对别人发论文时顺便把我带上就行。你会发现很多 model release 里都有我的名字就是因为我在 OpenAI 内部搭了整套 post-training 的 AI infra。何泰然所以整个 post-training 的 AI inference你是核心贡献者之一翁家翌是的。大家之前训练 RLHF 模型基本都基于这套 post-training inference 系统。所以每一次大的 release、大的模型发布我的名字都会出现。何泰然那可以说每一个 OpenAI 背后的模型里都有你的一部分因为你一直在卖铲子。翁家翌而且我算是卖铲子里最面向“客户”的那一层因为 inference 处在整个系统的最顶端生态位很高。如果太底层比如写 data loader 或 storage名字就没那么容易被看到。何泰然对那些东西虽然重要但不是每个人都直接依赖而 AI inference 是所有人都想要的。翁家翌我之前也认真想过自己的职业路径当时给自己定了一个指标最大化我在 OpenAI blog 上出现名字的次数。何泰然你真的很会给自己设计 reward。翁家翌那反推回来你要做什么肯定是做 infra。单点 research 很难 scale而 infra 是所有人都会用的自然就能 scale。我又正好擅长做 RL infra这在当时是一个非常合适的机会。何泰然这条主线其实从你进清华开始就已经定下来了。那站在今天这个时间点你会怎么建议那些还在本科、硕士阶段犹豫工业界和学术界选择的人尤其是在 2025 年这样的环境下。翁家翌从长远来看我觉得现代学术体系本身是需要被重构的。何泰然但很多有抱负的年轻人希望像你一样做出真正的 impact。他们会纠结是读 PhD还是尽早进入工业界翁家翌我个人更倾向于尽早进入工业界。因为读 PhD 的不确定性很大你不知道毕业时范式是否已经变化很可能你多年投入的方向突然就失去了意义。如果目标是 AI Lab该如何倒推路径翁家翌如果你的目标是进入 AI lab首先要想清楚一个问题AI lab 到底需要什么样的人如果他们更需要 infra 能力那你就多做 infra即使没有 PhD也不构成实质性障碍关键在于经验是否真正有用、是否匹配。何泰然那在你看来现在 AI lab 最缺的是什么样的人翁家翌Infra 仍然是一个无底洞。Research 需要的是少数真正有研究直觉的人而从 ChatGPT 之后在这个行业连续干了三年以上的人本来就不多。当前更现实的问题在于你能不能 scale up单位时间内能迭代多少次这直接决定了整体生产效率。何泰然听起来对 PhD 并不是一个特别友好的环境。这其实也对应一个我们都很有体会的 gap学术界的 RL 研究长期在 Atari、MuJoCo 这些 benchmark 上反复 overfit比的是谁在 100K step 时分数更高而工业界完全不关心这些关注的是用 RL 解决真实问题。翁家翌我在 2022 年 8 月意识到这一点后就逐步停止了天授的开发。因为天授主要还是面向这些 toy benchmark。我觉得应该把时间投入到更有意义的事情里比如在 OpenAI 内部把 RL infra 做好所以后来的工作重点基本都在维护和开发这套 infra 上。何泰然说实话你在 2022 年形成这个判断是非常超前的当时远远不是共识。那你为什么没有写篇 blog把这个信息差直接捅破翁家翌我担心说得太明白会被认为涉及内部信息哪怕严格来说也不算泄密但总有风险。OpenAI 的所有模型的起源地RL团队2022年就已经有了GPT-4何泰然那我们就顺势聊聊 OpenAI。你是极少数完整参与了 ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT-4.5 到 GPT-5 的核心贡献者之一。有人只参与前半段有人只参与后半段但你从头到尾都在。如果用三个词概括你的贡献我会说强化学习、post-training 和 infra。我们稍后细聊这些技术和故事但我想先问一个看似简单、其实很难的问题什么是强化学习翁家翌只要存在反馈机制你能把问题建模成一个环境并且从环境中获得反馈这个“行动—反馈—更新”的闭环本质上就是强化学习。何泰然通过反馈不断修正让系统越学越好。那第二个关键词是 post-training大语言模型的 post-training 到底是什么翁家翌其实我刚入职的时候还没有 post-training 这个说法。当时我的 team 就叫 RL内部也没有明确区分 pre-train 和 post-train。何泰然也就是说你刚进 OpenAI 的时候这个概念还不存在。但那时 ChatGPT 已经是主线了吗翁家翌不是。当时只有 John Schulman 下面的 RL team在做 WebGPT 的后续版本。WebGPT 基于 3.5主要做 browsing但直接用 3.5 效果很差因为 browsing 强依赖 tool call。所以我们当时退了一步先把用户交互体验做好核心问题变成了 chat而 chat 可以通过 instruction following RLHF 来解决。何泰然所以你进去的时候GPT-3.5 在内部已经是可用状态了。翁家翌对但当时 PPO小编注近端策略优化的 pipeline 非常不好用。那段时间我们主要用的是 GPT-3.5 的 SFT不断迭代。后来才有 GPT-4再后来 Greg 小编注OpenAI前董事长写了一整套新的 infra用来支持 GPT-4 的训练也顺带支撑强化学习。OpenAI自己也没想到ChatGPT会成为Game-changer何泰然你是 2022 年 7 月入职的那时候距离 ChatGPT 发布只有几个月。OpenAI 内部当时能预想到它会有这么大的影响吗你自己在内测时有意识到这是 game-changing 的东西吗翁家翌没有。我能看到的反而是很多不足。第一次用的时候只觉得是个会说话的模型多用几次发现能帮我写点代码但解决的问题也有限。因为我提前参与了整个过程是逐步看着它变好的所以没有“突然被震撼”的感觉。但发布之后给身边的人看他们的反应非常强烈这一点是我没预料到的。何泰然那 2022 年 7 月OpenAI 是已经整体 all in ChatGPT 了吗翁家翌没有只有我们这一组在做。你可以去看 ChatGPT 的 blogcontributors 列表里从 John Schulman、Barrett 到 Zhao Shengjia一共十来个人基本就是我们整个组。何泰然那你什么时候意识到我在 OpenAI 做的事情真的引爆了一个时代级产品翁家翌应该是 ChatGPT 发布之后。我当时在开 NeurIPS大概 11 月 30 号发布过了几天发现身边所有人都在讨论它而且服务器被打爆了好几次。那种感觉和我当年做「退学」应用很像用户会自发传播形成“自来水”效应。一旦出现这种现象就说明这是值得持续投入精力的事情。ChatGPT不是精心计划出来的何泰然听起来无论是你个人加入 OpenAI还是 OpenAI 最终做出 ChatGPT都不像是某个精心规划的结果更像是一系列半偶然、半必然的化学反应。翁家翌确实如此。最初发布 ChatGPT其实只是想收集真实用户数据甚至做好了几天后就关掉的心理准备。我们预期的曲线是先有一两万用户然后迅速回落。翁家翌但真实的曲线是指数级增长。何泰然这就是 ChatGPT 突然爆发的传播曲线。那我也很好奇你刚进 OpenAI 时对这家公司的第一印象是什么翁家翌我觉得它更像一个大型实验室。没有我想象中那么强的流程方法论但聚集了很多 research 直觉极强的人他们能迅速判断方向然后就去执行。后来 Barrett、Luke 和 Liam 加入 John Schulman 的 RL team 后整个组发生了变化开始引入谷歌那套高效率的工程体系迭代速度明显提升。何泰然所以单位时间内迭代次数越多成功概率就会线性往上走。翁家翌对这其实也可以看作一条强化学习的曲线。本质就是不断的 trial and error你尝试的次数足够多就会逐渐逼近目标。很多现实世界里的问题其实都符合 RL 的结构。何泰然所以你们当时引入的那套“先进生产力”更像是一种方法论先不去追求天才级的 idea 或算法而是把 infra 打好让迭代速度从一周 30 次提升到一周 300 次。硬核创新如何做到的OpenAI的高人才密度何泰然我看到过一个采访有人问 Sam AltmanOpenAI 为什么能持续做出突破性的技术创新。他的回答是在一个人才密度极高的小团队里任何平庸的表现都是无法被容忍的。你认同这种说法吗翁家翌我认同。人才密度一旦足够高就会自发涌现出很多意想不到的结果。反过来如果整体环境偏平庸大家往往只完成自己的那一小块任务很容易拖延也很难形成合力。何泰然你加入 OpenAI 的时候公司规模大概也就几百人吧翁家翌我入职时是 280 人左右。何泰然现在已经三千多人了三年时间接近 10 倍增长。你觉得 OpenAI 还能保持当年那种“小而美”、能持续做硬核创新的状态吗翁家翌概率肯定是在下降但没有下降到不可接受的程度。因为即使公司整体变大仍然可以人为地切出小团队专门做高强度的研究和探索。何泰然那在你看来OpenAI 的管理层有没有做过一些有意识的努力来维持这种高人才密度、小团队驱动创新的状态翁家翌比如简化组织架构取消不必要的会议。我觉得相比流程本身组织结构对创新效率的影响更大。何泰然那什么样的组织结构更有利于硬核创新翁家翌核心是信息流通顺畅。一个决策能无损地传递到执行层执行层的最新进展也能无损地反馈回决策层。否则上面的人和下面干活的人可能朝着完全不同的方向用力。OpenAI是如何做到上下层保持透明一致的何泰然OpenAI 是怎么做到这一点的翁家翌像 Sam 和 Greg 这种角色本身就对技术非常熟悉。Sam 之前有专门的研究助理持续帮他同步公司内部的最新研究进展Greg 更不用说几乎整个 infra 他都参与过。他们能保持对技术状态的敏感度知道事情推进到哪一步、有什么新变化、会带来什么影响。何泰然所以这要求一把手、二把手愿意深入到技术细节里理解公司的每一个“毛细血管”。翁家翌我觉得管公司和管代码库其实很像。如果系统不一致就会出现“身体在动、脚没动”的情况看起来非常别扭。RLHF是先在GPT-4上跑通的然后才在ChatGPT上升级的何泰然那我们回到 post-training。翁家翌可以从 3.5 开始说但实际上 3.5 的 PPO 并没有完全调通。我是先把 GPT-4 的 PPO 跑通的。因为 3.5 还在用旧的 infra而新的 infra 刚好在 2022 年 8 月搭好我就在这套新 infra 上先完成了 GPT-4 的第一版 PPO大概是 9 月。何泰然这点很有意思。也就是说GPT-3.5 发布的时候内部其实已经有 GPT-4 了而且 RLHF 是先在 GPT-4 上调 work再回到 3.5 上升级的。翁家翌对。但也要说清楚过程中有不少坑是其他组已经踩过的我们能复用一些已有 pipeline。但关键环节还是自己来比如 reward model 怎么训、数据怎么收集、infra 哪里出了问题基本都是我们自己解决。何泰然当时要把 RLHF 真正跑起来最大的挑战是什么翁家翌核心问题是你怎么判断模型是不是“变好了”。因为在当时没有人知道性能应该长什么样。何泰然也就是说你训练了很多 checkpoint却不知道哪一个真的更好。翁家翌对。比如单一 reward 很容易出现 reward hackingreward 看起来在涨最后却进入饱和变成一条平线。但如果是人类真实偏好reward 往往会先上升再逐渐回落。这就导致你很难判断哪个 checkpoint 才是真正更优的。备注reward hacking 是指在强化学习中模型违背设计初衷或现实目标出现的一种“取巧”式地学会最大化奖励函数的现象。翁家翌所以选 checkpoint 本身就是一个基础但很难的问题。我们并没有在这上面投入太多“精挑细选”的时间而是直接构建了一套基于 sampling 的 eval看每个 benchmark 上的表现。翁家翌但说到底这些 benchmark 也只是数字参考。模型的方差非常大每次跑出来的结果噪音都很多很难简单地用“好”或“坏”去下结论。翁家翌最后的解决方式其实很原始。就是把模型拉出来真正跟它交互几次看一看自己的使用体验再多找几个人一起看最后大家投票。何泰然所以本质上是用 HF也就是人类反馈来做 eval。翁家翌对只能这样。当时的技术条件下没有更好的办法。何泰然这相当于你第一次在工业级规模上搭建 RL infra。那这种为大模型服务的 RL infra和你之前做的像天授那样的 single task、toy task 的 RL infra差别主要在哪翁家翌差别非常大。Toy task 玩具任务的瓶颈通常在环境本身模型很小无论训练还是 action 采样成本都很低。但在大模型场景里环境反而极其简单基本就是一个 prompt真正昂贵的是模型本身。你要考虑如何高效采样、如何高效训练因为生成一个 prompt 可能只需要几微秒但跑一次 inference 可能是几百秒甚至上千秒尤其是在资源受限的情况下。RL Infra 接下来核心问题如何Scale up何泰然那未来这些模型相比 GPT-3.5、GPT-4在 RL infra 上会面临哪些新的挑战翁家翌核心还是性能问题以及怎么继续 scale up。何泰然比如如何用更多 GPU如何提高整体吞吐。翁家翌对。何泰然那这就不仅仅是 RL 的问题了还涉及模型 inference。翁家翌是的会更偏向 end-to-end需要深入到实现细节里做整体层面的优化。做 RL infra 早上醒来就debug累但锻炼人何泰然其实你做的是一个非常交叉的位置既要懂 RL又要懂 ML Sys还得理解大语言模型的 inference 机制。这种能力说实话在学校阶段是很难系统学到的。翁家翌是的。那个位置非常锻炼人但也非常累。我有一段时间确实是超负荷工作加班太狠头疼得受不了甚至进了 ER小编注急诊室。医生检查之后说没什么大问题。何泰然你当时的工作强度大概是什么水平翁家翌基本上是从早上醒来开始 debug、处理问题一直到晚上睡觉。何泰然一周几天翁家翌平均六天吧。但经历了一段时间之后我意识到这是不可持续的。身体必须放在第一位。所以我现在给自己养成了一个习惯每周跑两次三千米。挺讽刺的是我在清华读书的时候三千米体测是不过关的现在反而是自己主动去跑。大模型的RL持续做认为合理的事情就可以了何泰然说实话我很羡慕你过去两年在 OpenAI 做的事情。你接触到的是全球 99.99% 的 researcher 和 infra engineer 都没有机会碰到的东西。你在最先进的模型上做优化每天都在未知领域探索而且你很清楚你找到的答案很可能是人类历史上的第一次。翁家翌但我自己并不这么看。我觉得我做的很多事情其实都很 trivial琐碎更像是日常维护并不需要多高深的智力投入。何泰然所以并不需要投入太多智力层面的东西翁家翌是的。把事情做对、做好就行方向更重要。只要站在正确的方向上持续做你认为合理的事情就可以了。挑战并不在于算力不够而是现有方法还没Scale到极限何泰然那你觉得大模型上的 RL 还需要那种范式级的突破吗还是说范式已经确定剩下主要是把 infra 拉上去翁家翌我觉得依然有可能出现突破。不能用当下的状态去外推未来会发生什么。新的 RL 范式、甚至新的 pre-training 范式都有可能出现。每天其实都在面对未知。不过话说回来我觉得自己只是刚好站在这个位置。如果换成任何一个人只要拥有同样的 context也完全可以把这些事情做好。这并不是一个“只有我才能做”的问题。何泰然那从 5 到 10 年的尺度来看你觉得最大的未知和挑战会在哪现有模型能力的瓶颈是什么又需要什么样的突破翁家翌我觉得当前阶段问题并不在于算力不够而是还没有真正把现有方法 scale 到极限。应该先通过大规模 RL 实验看性能上限到底能走到哪再判断下一步该做什么。何泰然也就是说还没有到“compute 不够用”的阶段而是现有方法和算力的潜力还没被榨干。翁家翌对而且 infra 里还有很多 bug。何泰然哪怕是你们现在的 infra也确信还有 bug翁家翌当然。不可能百分之百没有 bug。毕竟是人写的系统人一定会犯错。尤其是团队规模变大之后context 容易不一致每个人都会写一些“很有个性”的代码。何泰然那未来在强化学习 post-training 这个 pipeline 里最大的瓶颈会出现在哪翁家翌我觉得瓶颈在 infra 的吞吐能力单位时间内你能修多少 bug能正确迭代多少次。剩下的反而没那么重要。何泰然这相当于给所有其他部分做了赋能不管是算法还是环境。翁家翌是的。如果 bug 都被修掉了很多情况下算法甚至不需要改效果就会明显变好。正在重构OpenAI内部Infra为下一代GPT做准备何泰然那要把 infra 的效率真正提上来需要什么样的架构、什么样的人、什么样的资源翁家翌这个还在探索中。我现在已经不在最核心的位置了但我们组在做一件更长期的事重构 OpenAI 内部的 infra准备下一代系统。何泰然你们每一代 infra 是推倒重来、重新设计顶层架构还是像写“天授”那样在原有基础上小修小补翁家翌目前是推倒重来。上一代 infra 已经跑了三年多积累了大量问题。我们希望用一套全新的系统清理掉历史的 technical debt让 researcher 在单位时间内获得更高的迭代速度。如果让AI来取代最先被取代的会是研究员何泰然所以 researcher 并不会直接参与 infra 的构建他们更多是提出需求具体的代码、分布式训练这些由你们来负责。翁家翌对他们最后可能只需要改一个 flag。何泰然那听起来OpenAI 的 researcher 可能会是最早被 AI 取代的一批人。翁家翌我也有这种感觉。Research 很大一部分是在单位时间内产出 idea而 idea 本身已经变得非常廉价甚至“生成 idea”这件事本身都可以被建模。如果真要说替代顺序我觉得可能会先替代 researcher再替代 infra engineer最后全部替代。反而是 sales 相对难一些因为说服对方买单仍然是人与人之间的沟通这是 AI 很难完全取代的部分。Agent 和 RL 后训练本质是同一件事何泰然我们刚刚聊了 text-only 的 GPT-3.5也聊了多模态。那在你看来agent 和 RL post-train 之间会有多大的本质区别翁家翌没有本质差别本来就是同一件事只是中间多了几个 tool call。何泰然更多是环境变复杂了。翁家翌对本质是环境的变化。何泰然所以比起“标准的 LLM RL post-train”agent 这套范式并不算是一个全新的挑战。翁家翌对因为本质没有变。翁家翌AGI还早即便是写代码也依旧不放心“草莓”就是一个过度反应的例子何泰然那你个人对 AGI 的定义是什么你觉得我们现在达到 AGI 了吗如果还没有单靠 pre-train 加 RL post-train 这条路径能不能走到你心里那个 AGI翁家翌OpenAI 内部有个玩笑说你找 15 个人能听到 20 种 AGI 的定义。我之前的定义很简单如果它能完成我认为有意义的 task 里百分之八九十那我会认为它是 AGI。从这个标准看现在还没有。翁家翌至少从我个人角度我还不放心让 AI 直接改我的 infra 代码因为这是一个非常 out-of-distribution 分布外的场景。AI infra 在整个训练数据里占比几乎为零而且 inference 的验证反馈链条太长、成本也太高目前还触及不到。何泰然听起来你短期内还不会被 AI 取代。翁家翌至少暂时不会。在 Strawberry 出来之前我们内部已经用它一段时间了那时候很多人觉得工作要被取代了甚至觉得可以先写一堆屎山反正模型以后会帮我们清理。但一两年过去了屎山还在现实并没有发生根本性变化。每次新技术出来大家都会过度反应但真正的改变永远是一个非常缓慢、渐进的过程。OpenAI不开源最好的模型原因是为了生存何泰然你现在在 OpenAI此前在清华、CMU也在科研 lab 待过。但现在外界常见的批评是OpenAI 已经和“open”没什么关系了。而你个人以前也很热衷开源、打破信息差这会不会和你的价值取向产生冲突翁家翌我觉得这是一个 trade-off。我依然很热爱开源有合适的项目也会参与但我更倾向于去做我认为更重要的事情。翁家翌而且对 OpenAI 来说开源本身也是 trade-off。你没办法直接把最好的模型开源因为公司要生存。如果不能生存就无法融资、无法做实验也就谈不上突破。我能理解并认同这一现实路径。OpenAI的两件事实现AGI造福全人类何泰然但 OpenAI 一开始的组织架构其实很特殊它并不是一个以商业盈利为目标诞生的公司。至少在公开语境里它的口号是“让通用 AGI 平等地造福全人类”。在你看来走向闭源是让这个目标更近了还是更远了翁家翌我一直把这句话拆成两部分来看第一实现 AGI第二造福全人类。实现 AGI 这件事相对清晰本质就是堆 pre-train、堆算力、持续 scale。翁家翌而“造福全人类”的当前路径是把技术做成产品以尽可能低的门槛让人使用。比如免费版 ChatGPT、语音模式让普通人直接体验技术这在现实中可能比开源一个裸权重模型更有效因为大多数人并不知道该怎么用。何泰然所以你的理解是OpenAI 的 “open”更多是对普通用户的开放而不是对其他大模型公司的开放。这个策略在接近 AGI、进入百米冲刺阶段时我能理解但如果 AGI 仍然是一个长期目标会不会更开放、更透明反而有利于 OpenAI 更快接近它还是说OpenAI 现在已经不太需要社区反馈也不依赖外部力量就能 self-contained小编注独立的 地推进到 AGI对于OpenAI而言开源路径执行起来不太现实翁家翌我觉得理论上是存在一条路径的你可以选择开源并且接受社区反馈也有可能最终实现 AGI。但现实执行起来非常困难。因为你一旦开源别人可以立刻在你的基础上超过你然后选择闭源继续推进。并不是所有参与者都目标一致这会让最早开源的一方处在非常尴尬的位置。在这样的环境下如果 OpenAI 全面开源很可能连融资都成问题没有人会持续为它输血。何泰然这其实是一个博弈论问题。即使你真心想为 AGI 造福全人类也无法保证其他人不只想着赚钱。所以为了防范这种情况OpenAI 被迫选择闭源。翁家翌至少在我看来是这样的。何泰然那这是公司生存层面的考虑。假设一个极端情况OpenAI 拥有无限资源永远不用担心生存问题。如果现在把你这两三年做的 RL infra 全部开源你会开心吗翁家翌我当然会很开心。John Schulman 其实也问过我这个问题要不要开源。当时我的判断是从公司的角度看不太合适但他确实认真考虑过这件事。何泰然那是不是像 DeepSeek 这种 open weights 的做法至少会促使 OpenAI 在内部重新评估这件事翁家翌对。Ilya开除Sam的真相核心就是不信任何泰然你之前提到OpenAI 的使命其实可以拆成两部分先实现 AGI再造福全人类。如果从这个使命出发你觉得真正的机遇和最大挑战分别是什么翁家翌关键在执行。只要方向对能够稳定地执行就够了最怕的是中途再出现类似 2023 年 11 月那种情况。何泰然你是指 Sam Altman 被董事会开除的那次。翁家翌对。组织结构越稳定越有利于快速往前推进。何泰然那从你们内部视角看当时发生了什么因为外界听到的说法都很玄比如 Ilya 到底“看到了什么”。翁家翌那些基本都是谣言捕风捉影外面传得非常夸张。何泰然那你们内部的真实视角是什么翁家翌核心就是不信任。Ilya 和部分董事会成员不信任 Sam于是投票把他撤掉。但对我们这些在下面干活的人来说这件事非常突然也非常震惊。董事会之前对内部几乎没有透明度我们并不知道这个决策是怎么形成的。何泰然那这种不信任具体是不信任什么翁家翌具体细节可以看后来公开的调查报告。对于OpenAI而言Sam是不可替代的何泰然但最终的结果是 Ilya 离开了。明明最初是他不信任 Sam最后反而是 Sam 获得了更多支持这个转变是怎么发生的翁家翌很多员工的判断是如果由一个纯技术背景的人来领导公司可能缺乏足够的远见。AGI 的实现并不只是技术问题还涉及融资、算力获取以及如何说服外部世界持续投入资源。如果只有研究经验很难支撑这样一条长期路线。从这个角度看还是需要 Sam 这样的人。何泰然所以 Sam 反而可能是 AI 最难替代的那类角色。他需要在商业、资源甚至地缘政治层面持续运作。翁家翌可以把 Sam 抽象成一种 personality一种 identity。短时间内如果试图用 AI 去替代这个 identity外界对这个角色的信任和认同会立刻崩塌。所以在这个层面上他是不可替代的。OpenAI在做的事情外界并非完全不可复刻何泰然你刚刚提到 John Schulman 离开的那天下午你难过了很久。但他并不是唯一一个离开 OpenAI 的人。在取得巨大成功之后OpenAI 有很多核心成员陆续离开。你觉得像 OpenAI 这样极度成功的组织大规模的人才流失是必然的吗翁家翌我觉得一个健康的组织前提就是所有人都可以被替代。只要你能持续培养新人有稳定的造血能力组织就能正常运转。即使走了一批人也可以再花时间和精力培养新的一批继续循环。何泰然有点像干细胞系统。所以现在的 OpenAI没有谁是不可替代的。那是不是也意味着OpenAI 正在做的事情外界并非完全无法复刻翁家翌可以这么理解。本质上就是把最简单的事情持续做好没有什么黑魔法。后训练团队压力确实大何泰然我们现在可能正处在人类历史上最激烈的一次科技竞赛中而 OpenAI 点燃了这一切。你们内部现在的氛围有多 intense压力会很大吗翁家翌要看具体的组、deadline 和项目周期。比如 post-training目前压力确实很大而像我们在做 infra 重构压力也有但没有那么紧因为我们可以适当延后更关注把事情从长期角度做对。不太Care外部压力除了DeepSeek那次何泰然那外部的激烈竞争比如 xAI、Anthropic或者中国的大模型公司会直接传导到你们日常的开发节奏里吗翁家翌大多数时候不会。唯一一次明显的例外是 DeepSeek。因为他们在推特上公开强调自己的迭代速度非常快这在内部引起了警觉。因为客观来说我们内部的迭代速度相对偏慢这也是为什么要下决心重构 infra。模型公司的生死线Infra的迭代速度何泰然所以对 OpenAI 这种基础模型公司来说真正的生死线其实是 infra 的 cycle time。翁家翌对。何泰然那其他因素呢比如数据规模、算法或者 researcher 的数量。翁家翌这些本质上是“投人”就能解决的问题是单位成本的人力。何泰然那 AI infra 不也是人力吗翁家翌这是个好问题。AI infra 对人的要求更偏向“高 context”。如果只是做数据 ablation消融实验、跑实验其实不需要太多上下文理解进来之后写个 for loop把配置跑起来就行这些事情甚至可以高度自动化。很长时间不会去为了刷榜单而特意做什么何泰然所以你们真正警觉的点是意识到 DeepSeek 内部的 infra 很强迭代速度非常快。这才是引起注意的地方。你们并不在意哪个模型在榜单上比 GPT 高了多少分。翁家翌是的。我们很长时间都没有为了刷 LMSys 之类的榜单去特意做什么。OpenAI肯定不是Infra迭代速度最快的公司何泰然你们真正关注的是单位时间内的迭代速度和成功率。那你觉得 OpenAI 现在在这个指标上是全球第一吗翁家翌不是肯定不是。这和组织结构关系很大。如果你把一小撮人抽出来去做一个创业公司他们的迭代速度斜率一定比 OpenAI 高。因为代码库更小、沟通成本更低、use case 更集中。翁家翌而 OpenAI 需要同时考虑很多 use case服务多个方向组织一旦变大复杂度就会上来。OpenAI还能持续做世界第一的模型吗何泰然那如果在这个生死线指标上OpenAI 已经不是第一了它未来还能持续做世界第一的大模型吗翁家翌这是每一家成功公司都会面对的问题。何泰然你的意思是公司一旦做大、做成功速度一定会变慢。翁家翌对。最后就变成一个相对问题大家都会变慢区别在于谁没那么慢。这里的“慢”是相对于初创公司来说的。何泰然初创公司可能在迭代速度这个指标上更强但在其他指标上很难和 OpenAI 竞争比如用户规模和真实反馈。如何解决大公司的信息透明难题一个“无限上下文”的Agent更适合来当CEO翁家翌所以一切都是 trade-off。这是任何人类组织发展到一定规模之后必然要面对的问题。真正难的不是维持高人才密度而是维持组织内部 context sharing 的一致性。一旦这一点做不好infra 会开始不一致、变得臃肿组织结构本身也会随之臃肿。翁家翌理论上这种问题最终可能需要一个拥有“无限 context”的 agent 来替代人类组织去解决。何泰然听起来这是一种刚需。因为它实际上能解决人类历史上反复出现的问题组织一旦变大不管是写代码还是做其他事情结构都会不可避免地变得臃肿。翁家翌对因为人脑能够承载的 context 是有限的。你不可能同时记住和处理这么多上下文但 AI 可以。何泰然那未来会不会是每一家公司都会有一个拥有无限 context 的 agent翁家翌然后让它来当 CEO 就好了。何泰然由它来负责所有的信息共享负责所有决策。从这个角度看可能没有什么比这样的 agent 更适合做 decision maker 了。最想用AI做的事情提前生成未来剧本何泰然那再往未来看如果你希望 AI 能解决一个世界级难题你最希望它解决什么翁家翌如何预测未来。何泰然你说的未来肯定不是“杯子会不会掉下来”这种层面的未来而是关乎人生、世界格局、宏观走向的那种。翁家翌对。何泰然为什么这是你最想让 AI 去解决的问题翁家翌我个人其实一直对“自己造一个世界”这件事有执念。如果从更高维度来看你需要一个能够提前生成剧本的东西。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询