ChatGPT的过去,现在和未来
在今年的微软Build大会上,微软CEO纳德拉在主旨演讲里的一连串发布引发各路媒体的持续讨论,但事实上在这场活动上,除了这些产品展示外,还有一场对话值得关注。
这就是OpenAI总裁Greg Brockman和微软CTO Kevin Scott进行的现场对话。
Greg Brockman是ChatGPT背后最核心的搭建者之一,Kevin Scott则直接负责着ChatGPT和微软的一系列工程整合工作。
像很多硅谷传奇人物一样,OpenAI的另一位“父亲”Greg Brockman也是一个名校退学生。他先后从哈佛和MIT退学,在创立OpenAi之前曾加入过支付软件公司Stripe。据称,OpenAI的创始团队中大部分人才都是Greg Brockman拉拢来的,他本人也在团队中领导过一系列研究项目。
而微软CTO Kevin Scott也是一个对技术极有热情的人,谷歌出道,加入领英临危受命,帮助公司在IPO前夕顺利完成平台增速扩容,最后成功上市,被誉为“拯救了领英的工程师”。微软收购领英不久,他便被迅速提拔为微软CTO。
在大多数人眼里,Kevin Scott和Greg Brockman这两个在AI圈举足轻重的人或多或少分别代表着“技术发展”和“应用平台”两个维度。他们的对话也昭示着两个维度的碰撞和共存,为从业者带来启发的同时也影响着行业的未来。
这场对话也许才是关心ChatGPT背后技术思考和工程实践的人们最不能错过的。我们整理了这场对话实录,供大家参考:
Kevin Scott:非常感谢你今天加入我们的Build大会。我想从ChatGPT的体验开始,因为它确实让我们所有人都感到惊叹。ChatGPT的应用是多么令人兴奋,人们对它的兴趣也是如此之大,构建这样的东西确实是一个巨大的工程挑战。所以也许你可以和我们分享一下你对此的看法。
Greg Brockman:从基础设施和各个方面来看,ChatGPT都是一个非常有趣的过程。事实上,多年来我们一直在研究如何构建一个聊天系统的。我们之前还推出了一个名为Web GPT的demo,它是一个很有趣的demo。我们找了几百个测试者,真的是付钱让他们使用这个系统。他们的反馈是:“这个(Web GPT)有点用吧,还能编程。”
但对我而言,真正让我眼前一亮的时刻是在我们拥有了GPT-4时。我们之前已经有了一套熟悉的流程,例如对于GPT-3,我们只是部署了基本模型,进行了预训练,没有进行任何方向上的微调。而在GPT-3.5时,我们开始让它根据指令进行操作。我们给测试者一系列的步骤,让他们按照这些步骤进行训练。到了GPT-4时,我进行了一个小实验,例如,如果在模型已经生成了一些内容之后再提供第二条指令,会发生什么?这个模型给出了完美的响应,将之前生成的内容与新的指令融合在一起。
所以我认识到这个模型的强大之处,因为它真的能够总结出这样一种思路:“嗯,当你想让我遵循指示,并给我一个新的指示时,也许你是想与我聊聊。”
对我而言,那是我“开窍”的时刻:好吧,我们有了这个基础设施,它已经在早期模型中表现出色。这个模型虽然不是专为聊天设计的,但它确实能够进行聊天。所以这是一个真正的“啊哈!”时刻。从那时起,我们就想,我们必须将这个东西推出去,这个东西是可以成就大事的。
Kevin Scott:是的,这确实让我感到非常惊讶。我还记得当阿尔特曼给我打电话说,我们计划发布ChatGPT,预计需要几周时间。我当时的想法是,为什么不呢?我当时没有意识到这个技术在技术层面上会如此有效率,也没有想到它会取得如此疯狂的成功。我知道你是GPT-4的基础设施的主要架构师之一,而GPT-4为ChatGPT的发展提供了动力。对于在AI领域工作的每个人来说,这都是一种启发。所以我想知道你是否可以分享一些有趣的事情。
Greg Brockman:在很大程度上,GPT-4这个项目让我们成为“爱的劳工”,很辛苦但很值得。实际上,在GPT-3之后,我们尝试了多次超越该模型的性能,但都以失败告终。这并不是一件容易的事情。我们最终决定回到原点,重新构建整个基础设施。我们采取了许多方法,致力于处理每个细节。
我相信即使现在,我们仍然可能会发现更多的错误。但项目负责人之一雅各布曾经做了一个很好的类比,他说这几乎就像建造一枚火箭,你希望每个工程公差都尽可能小。例如,我们曾经遇到一个检查点读取的错误,如果你在错误的时间停止工作,当工作重新开始时,你可能会混合使用新权重和旧权重。这其实无伤大雅,因为机器学习可以从中恢复。但每当你在图表中看到一些奇怪的波动,你就会想知道是什么原因造成了这种情况。所以,我会回头重新审视每一个细节,这些看起来很乏味的工程工作是我的主要职责。
Kevin Scott:你所做的那些看似“无聊的工程工作”已经达到了一个令人难以置信的惊人规模。我确实认为,这对于房间里的每个人来说都是一个很好的启发,有时候真正导致成功的是那些看似平凡的基础工作。
萨蒂亚·纳德拉在他的演讲中提到了我们正在开发的共享插件。这个想法是,我们将授权房间里的每个人都能编写软件,以扩展ChatGPT的功能,以及我们正在构建的所有这些Copilot。这也是一个有趣的技术挑战,我们还没有解决所有的技术问题,还有很多工作要做,才能使它达到我们最终的目标状态。所以我很想知道你是否有一些想法想要分享。
Greg Brockman:我爱插件!我认为这是一个非常棒的机会,对于每个开发人员来说,都可以利用这项技术,让系统对每个人都更好,对吧?我们当时设计为开放标准的部分原因是,作为开发人员,你只需构建一次,然后任何AI都可以使用它。这真是个好主意,不是吗?
就像互联网推动发展的主要因素一样:你可以搭建一个网站,然后每个人都可以访问它。然后你开放了一个API,任何人都可以利用它。我认为这种核心设计原则非常棒,它让任何想要插入的人都能获得系统功能,并且能够将各个领域的扩展功能引入ChatGPT本身。
Kevin Scott:我真的很喜欢插件的一点就是它在概念上非常简单。这让我想起了我写的第一个HTTP服务器。一旦你理解了核心概念,你就能够快速构建出功能强大的东西。我觉得这是一件很棒的事情,所以在OpenAI的角色中,你一直在思考如何突破技术的极限。在我们的合作关系中真正令人惊奇的一点是,似乎因为你们,我们能够看得更远了。所以我很想知道你是否可以分享一些让你兴奋的应用程序或模型。
Greg Brockman:对我来说同样有趣的是,我们几乎处于一个像英特尔早年间使用的“Tick Tock模型”(注:"Tick-Tock"是Intel公司在2007年提出的一种战略模式,用于发展微处理器芯片设计制造业务。该模式将处理器微架构和芯片制程的更新错开,以提高效率。每个"Tick"代表一次微架构的芯片制程更新,旨在减小芯片面积、降低能耗和发热量;每个"Tock"代表在上一个"Tick"的基础上更新微处理器架构,提升性能。该模式的周期为两年,其中一年为"Tick",另一年为"Tock"。)一样的循环中,你会想出创新,然后真正推动它。
就像GPT4一样,我们仍处于推动的早期阶段,对吧?我们已经宣布了视觉能力,但仍在生产中。我相信这将改变这些系统的工作方式和感受,以及在其上构建的各种应用程序。因此,我对此感到非常兴奋。回顾过去几年的历史,我想到两年前我们把价格砍下了70%。在过去一年中,我们又降价了90%。这看起来非常疯狂,不是吗?我相信我们将能够用新模型重复这样的事情。现在,虽然GPT4价格昂贵且尚未完全可用,但我认为这是将会改变的事情之一。
Kevin Scott:这也是我想留给在座各位的一件事:今天昂贵的东西明天不再昂贵,因为技术进步是如此惊人。我们还有时间来谈论最后一个话题——你已经为这里的开发人员提供了一系列非常好的建议,还有什么想跟大家分享的吗?
Greg Brockman:我认为在这个领域,技术路线越来越清晰,技术也越来越出色。但我相信有一件事是每个开发人员都可以做到的,而即使像微软这样的大公司也很难实现,那就是真正深入某个特定领域,弄清楚如何让这项技术在该领域发挥作用。因此,我非常欣赏那些在法律领域等领域工作的公司,他们获取了专业知识,与许多律师交流,了解他们对这项技术的痛点。我相信每个人的努力都可以为这项技术增添巨大的价值。
Kevin Scott:太棒了。正如Greg所说,你们都是让AI变得伟大的人。Greg,非常感谢你今天与我们共度时光!