作者 | 李水青
【资料图】
编辑 | 心缘
智东西3月23日报道,昨夜,在GTC大会主题演讲后,英伟达创始人兼CEO黄仁勋化身一名记者,与OpenAI联合创始人兼首席科学家伊利亚·萨特斯基弗(Ilya Sutskever)进行了一场50分钟的深度对话。
这是一场两位风口浪尖的科技圈大佬的巅峰级对话。就在昨天GTC大会上,老黄刚刚推出了ChatGPT专用推理GPU,针对生成式AI、大型语言模型等进行了大优化。他在会上盛赞ChatGPT“震惊世界”:“崭新的计算平台已经诞生,AI的「iPhone时刻」已经到来”。
而OpenAI这边,伊利亚已推动GPT-4和ChatGPT快速落地到搜索引擎、Office工具等微软多个产品,并用开放的API,引爆千行百业和数亿人的生产力革命。
在采访中老黄提到,大约十年前的一次会面中,伊利亚就如同先知般对他说:“GPU会影响接下来几代人的生活”、“GPU可能会对深度学习的训练有所帮助”。而伊利亚也回顾,ChatGPT诞生的源头则要追溯到更早的20年前,而后数据的爆发让质变到来。
伊利亚说ChatGPT实际上做的就是“预测下一个字符”,他坦言现在GPT-4还不及预期,存在逻辑死板、编造信息、不懂装懂等问题,下一步让模型更加可靠,同时学会说“不知道”是一大技术难点。
此外,老黄还与伊利亚探讨了关于摩尔定律、多模态、强化学习、自监督等更多关键问题。本文将两位大佬的对话内容呈现如下,内容做了不改变原意的编辑。
一、溯源:20年前畅想机器像人一样学习,模型只有上百个神经元
老黄:作为打造ChatGPT的最引入注目的顶尖科学家、工程师,你对深度学习技术有什么样的直觉?这一技术为什么会取得如此巨大的成功?
伊利亚:由于深度学习,我们的世界发生了巨大变化。我自己开始的初心是对各种问题有想要的直觉性理解,同时对于人类意识的定义,以及我们人类的智力是如何完成这样的预判,这是我特别感兴趣的地方。
在2002~2003年,当时的我认为“学习”是只有人类才能完成的任务,计算机是无法做到的。当时就想,如果能够让计算机去学习呢?可能会带来更多改变,但当时没有任何进展看起来是有希望的。
很幸运的是,当时我正在上大学,我研究的专业刚好是研究神经网络学习方向。我们希望了解如何通过神经网络去研究深度学习,以及神经网络如何像人类的大脑那样工作。当时的我其实并不清楚我们的工作路径是什么样的,只是觉得这会是有前景的行业。
老黄:那个时候的神经网络的规模是多大?
伊利亚:那个时候神经网络还没有讨论到规模的概念,我们只是有一百或者几百个神经单元,没想过现在居然能发展到现在如此之多的神经单元、以及如此多的CPU单位。
当时我们选用的是一个数学实验室,预算是非常有限的。我们先开始只做了各种各样不同的实验,并收集了各种不同的问题去测试准确度,一点一点去训练神经网络,这也是第一个生成式AI模式的雏形。我们不清楚下一步的方向是什么样的,但后来一想,发展神经网络、深度学习是一个重要节点。
二、节点:2010年明确深度学习研究方向,让老黄准备好GPU
老黄:在2012年这一节点,你就在神经网络领域有所建树。所以你是在什么时间点开始觉得计算机视觉、神经网络和人工智能是未来方向的?
伊利亚:在2012年之前大概两年左右,我逐渐意识到深度学习会获得很多关注。背后坚定的理论基础是:如果神经网络足够深、规模足够大,它就能够解决一些硬核内容问题,关键是需要神经网络兼备深度和规模,这意味着我们必须有足够大的数据库。
我们在优化数据模型上做出很多努力,我们的一个同事基于“秒”做出了神经网络的反馈。你可以不断训练神经网络,从而使得神经网络的规模更大,获得更多数据。有的人会说当时这个数据集大到不可想象,如果当时的算力能够处理这么大的数据,那么一定能触发一场革命。
老黄:当时是我们第一次相遇,你告诉我说,GPU会影响接下来几代人的生活,以及GPU可能会对深度学习的训练有所帮助。你是在什么时候意识到这一点的?
伊利亚:GPU在多伦多实验室中第一次尝试,我们并不清楚到底如何使用GPU、如何让GPU获得真正的关注。后来我们获得越来越多的数据集,我们也清楚传统的模型会带来更多优势。我们希望能够加速数据处理的过程,训练过去科学家从来没有训练过的内容,这是当时触发GPU使用的要点,促进我们不断培养训练神经网络。
三、里程碑:从预测下一个字符,到AI界的iPhone时刻
老黄:我们看到ChatGPT和OpenAI目前已经打破了过去计算机编辑图像的生成方式。
伊利亚:我觉得不是打破了计算机图像的生成方式,也不是打破了一种记录,而是:这样的数据集是显而易见而往往被忽视的,大部分人都是用传统的思维模式去处理数据集,但我们的处理方式“超越式”的,一旦超越就是几步的超越。当时非常艰难,但如果我们能做好,就是帮助人们跨越了一大步。
老黄:我觉得ChatGPT是“AI界的iPhone时刻”,你是如何达到这样的转变时刻的?
伊利亚:当我们开始时也不太清楚如何进行整个项目,而且,我们现在所得出的结论,和当时使用的逻辑完全不同。大家现在已经有这么好用的ChatGPT工具,来帮助大家创造出非常好的艺术效果和文本效果。但在2015年、2016年我们开始时,我们做了100多步实验和对比,当时看达成现在效果是很惊人的。当时大部分同事来自谷歌的DeepMind,他们有从业经验,但思想相对比较狭窄、受到束缚。
我们在OpenAI一开始有两大想法:一是让机器具备一种无监督学习能力,虽然今天我们认为这是理所当然的,但在2016年没有任何科学家有过相关的经验和洞见。“数据压缩”是技术上的瓶颈,ChatGPT实际上压缩了我们的训练数据集。最后我们还有一种数学模型,通过不断训练让我们压缩数据,这其实是对数据集的挑战。这个想法在Open AI最后展示中显示了成果,训练出了神经网络。
我们希望能够去训练神经网络预测下一个单词。我觉得,下一个神经元单位会和整个视觉神经网络密切相关,这重新证明了,下一个字符的预测、下一个数据的预测能够帮助我们去发掘现有数据的逻辑,这个就是ChatGPT训练的逻辑。
老黄:ChatGPT在全球揭开了一个工作的原理,就是只要我知道了这个工作的基本逻辑是什么,就能够观察学习下一步工作。(背后数据处理逻辑是什么样的?)
伊利亚:我可以用另一种方式描述这一过程。未受监管的数据不是更关注数据来源,而是关注你一开始为什么要寻找这些数据。关键你要意识到,训练这些神经网络识别文本是值得努力的目标,因此要用更多信息、语法预测下一个字符,这就是我们最想做的事情。
四、原理:海量数据是ChatGPT基础,人类反馈更重要
老黄:这么多年来,你一直说扩大数据规模能帮助提高AI能力。你认为GPT-1到GPT-4的演变过程,是否符合摩尔定律?你对数据集的扩大是否有预期?
伊利亚:OpenAI的一大目标是如何正确地扩大数据集,如何提升数据的高精准度。
比较明确的是,我们当时在做Open AI项目的时候,希望它能做一些策略性游戏,比如一个竞争性的体育游戏,它必须足够快、足够聪明,还要和其它队竞赛。作为一个AI模型,它其实是不断重复了这样一个基于人类反馈的强化学习过程,我们希望AI得出的结果和全球冠军队进行对比,从而进行继续迭代学习。
老黄:人们有一定误解,ChatGPT只是一个很大的语言模型,但我相信背后是有一个系统。你是如何精准调控给予人类反馈的强化学习的?是不是有其它附属系统支持ChatGPT的表现?
伊利亚:我可以给大家解释一下,我们的工作原理是不断训练神经网络体系,让神经网络去预测下一个单词。
基于过去我们收集的文本,以及看上去像在学习。实际上ChatGPT不仅是表面上的学习,而是预测的单词和过去的单词之间达成一定的逻辑上的一致。过去的文本其实是投射到接下来的单词的预测上了。从神经网络来看,它更像是根据世界的不同方面,根据人们的希望、梦想和动机得出的一个结论。神经网络体系了解了我们的情况,做出了一些展示。
但模型还没有达到预期的效果。
作为一个大语言模型,真正想做的是从一个随机写作的文本,如何随便摘几个句子做前言,在此基础上,不需要做额外的训练就能让ChatGPT写出一篇符合逻辑的论文。所以,我们不是简单地根据人类经验完成AI学习,而是根据人类反馈进行强化学习。我们是在教AI,和AI交流。人类的反馈很重要,越多的反馈会使AI更靠谱。
所以除了第一阶段让AI具备预测下一个单词,第二阶段的人类反馈更加重要,这决定了世界是什么样的。
老黄:你可以让AI做某些事情,那么能不能让AI不做某些事情?比如说告诉AI界限在哪里?
伊利亚:可以的。我觉得第二个阶段的训练,就是和AI、神经网络去进行交流。我们对AI训练得越多,AI的精准度越高,就会越来越符合我们的意图。所以我们不断地提高AI的忠诚度、准确度,它就会变得越来越可靠、精准,而且越来越符合人类社会的逻辑。
五、挑战:ChatGPT逻辑思维较死板,“不懂装懂”也是大问题
老黄:GPT-4的表现非常让人震惊,它接下来会有什么样的改善?
伊利亚:GPT-4基于过去ChatGPT的性能做了很多改善。
我们对GPT-4的训练大概是从6-8个月之前开始的,GPT-4和之前版本GPT最重要的区别,就是GPT-4是基于更大精准度去预测下一个单词的,因为有更好的神经网络帮助预测,让人有更清楚的理解,与过去的直觉有所不同。
比如说你自己在读一篇推理小说,小说中有各种不同的人物和情节、密室、有谜团,你在读推理小说的过程中完全不清楚接下来会发生什么。在最后一页,你知道谁是凶手。通过小说不同的人物和情节,你会预测凶手有几种可能性,GPT-4所做的内容就像一本推理小说一样。
老黄:GPT-4展现出了逻辑推理能力,语言模型是如何学习到推理和逻辑的?它现在还有什么样缺陷,需要接下来的版本上更进一步优化?
伊利亚:神经网络或许会面临一些挑战,逻辑和推理无法更精准定义。神经网络或许有一些缺点,比如让它打破固有思维模式,这就是神经网络能走多远的问题。
我们认为GPT的推理确实还没有达到我们之前预期的水平,我们希望推理和逻辑达到更高水平。如果我们更进一步扩大数据库,保持过去的商业运转模型,它的推理的能力会进一步提高,我对这个比较有信心。
老黄:ChatGPT有一种自然而然的属性,它能够不断去理解。
伊利亚:神经网络确实有这些能力,但是有时候不太靠谱,这也是神经网络接下来推广面临的最大障碍。
在很多情况下,神经网络会夸张、犯很多人类根本做不出来的错误。现在我们需要更多的研究来解决这些“不可靠性”,这会帮我们比较精准的结果,或者让神经网络去学会说“我不知道”,这是当下面临的一个瓶颈。
(老黄:编造也是ChatGPT面临一个问题。)
现在GPT-4的模型已经被公开发布了,它其实没有追踪数据模型的能力,它是基于文本去预测下一个单词的能力,所以是有局限性的,是数据调节出来的结果。
有些人可能会让GPT-4去找出某些数据的来源,然后会对数据来源做更深入地调查。
总体而言,尽管GPT-4并不支持内部的数据收集,它肯定会在持续的数据深入挖掘之中变得更加精准。GPT-4已经能够从图片中进行学习,并且根据图片和内容的输入进行反馈。
六、趋势:为什么要做多模态?图片理解比文字高效
老黄:多模态学习如何加深GPT-4对于世界的理解?为什么多模态学习定义了GPT和OpenAI?
伊利亚:多模态为什么如此有趣,有两个原因:
第一,多模态是确实有用的。它在视觉和图像识别上特别有用,因为整个世界是由图片形成的,人们和动物都是视觉动物,人脑1/3的灰质都是用来处理图像的。GPT-4也能够去理解这些图像。
第二,随着我们对世界理解加深,通过图片或文字理解是一样的。这也是我们的一个论证,但不那么显而易见。对于一个人而言,我们可能一生之中只会说10亿个词。
老黄:也就是说我脑海中闪过10亿个词?居然有这么多。
伊利亚:是的,我们可以计算一下人一生的时间有多久,以及一秒能处理多少词,如果再减去生命中睡觉的时间,就能算出一生处理了多少单词。
人和神经网络不同之处,就是有些过去对于文本而言的话,如果我们有一个十亿级的词汇无法理解的话,可以用万亿级的词汇来理解。你问ChatGPT两张图片哪个是紫色和橘色,它能够回答。这就是我们对于世界的知识和信息,可以通过文本慢慢渗透给AI的神经网络。但如你加上视觉图片等更多的元素,神经网络可以更精准地学习。我不是想说神经网络学习图片、文字上更倾向于学习图片,一个人,如果在十亿级图片学习是更高效的。
老黄:我们想要人工智能智能去理解事物背后的深层含义,比如日常一句话语调差别可能导致不同含义。这些模态会不会对AI去理解文本有一定帮助呢?
伊利亚:是的,你说的这类场景非常重要。对于语音和语调,包括声音的大小和语气,可能它们对图像、文本没那么重要,但也是非常重要的信息来源。
七、展望:加强可靠性,不懂的事情要说“不知道”
老黄:根据你们公布的任务,GPT-4在哪些内容上比GPT-3做出了更多的进步?
伊利亚:比如说在一些数学竞赛上,如高中数学竞赛,很多问题是需要图表来解答的。GPT-3.5对于图表的解读做得特别差,而GPT-4只需要文本,准确率大约能从2%提升到20%。如果加入视觉进行推理和交流,能得到更好效果。或许在ChatGPT的新版本,我们会推出更多视觉交互模式。
老黄:AI是否可生成专属于AI的数据来自我训练,形成一个闭环的模型?就像我们人类通过自己不断地去学习外部的世界、通过自我反思、通过解决问题来去训练我们自己的大脑。
伊利亚:我不会低估这个部分已经存在的数据,甚至比我们意识到的数据更多。
老黄:你是否可以总结一下现在AI所的发展阶段?展望大语言模型的未来是什么样的?
伊利亚:预测未来是很困难的。我们希望提供更多令人感到惊艳版本的系统。我们希望提高数据的可靠度,让系统真正能够获得人们的信任;如果系统不能完成预期,就说“不知道”,这是我们现在最大的问题。
如果让生成式的AI去总结某一些文本,然后得出一个结论。在AI在解读这个文本过程中,不会去验证文本的真实性以及文本所说的信息的来源,这一点是很重要的。我们让神经网络必须要意识到所有数据来源的真实性,让神经网络意识到用户每一步的需求,这是我们对未来的展望。
老黄:你第一次使用ChatGPT-4的时候,有哪些性能让你觉得特别惊艳和震惊的?
伊利亚:简而言之是它的可靠性。
对比之前的ChatGPT版本,神经网络只会回答问题,有的时候也会误解问题,但是GPT-4基本没有再误解问题,会以更快的方式去解决数学难题,能够去处理复杂的艰难的任务,这个对我来说特别有意义。
还有另一个例子,它能够写押头韵的诗,也能够写押尾韵的诗。并且它能够去解释笑话,能明白这个笑话背后到底是什么样的原理。
总体而言,我在这个行业从业差不多二十多年了,特别让我震惊的是,它是有用的,可以给人类带来帮助的。它从最开始毫不起眼的工作领域,慢慢变得越来越强。同样的一个神经网络,通过两种不同的方式来训练,能够变得越来越强大。
所以我会有一个惊叹时刻:退后一步看,这些神经网络是如何去成长如此之迅速的?我们是不是需要更多的训练?它是不是会像人脑一样不断成长?这让我感觉到特别惊讶的方面。
结语:算法算力数据20年迭代,推动今天ChatGPT引爆全球
一项引爆全球的技术背后,是20多年的一个小畅想“火种”的不断进化迭代。技术创新的逻辑也并不复杂,“让机器预测下一个单词”听起来简单,但最终产品走向世界却经过了长达20年一批又一批人的研究努力。
通过老黄和伊利亚两位大佬的对话,我们看到ChatGPT已经能够满足不少理解和问答需求,多模态也将增强模型的效率。下一步,如何让模型更加可靠,保证信息真实性,同时让机器意识到自己“不知道”,这些问题都将成为研发重点。
可以预测的是,这一波ChatGPT带动AI的又一次跃进。不论上层应用能否蓬勃发展起来,智能算力需求无疑都将大大释放,老黄无疑又成了背后稳稳的赢家。
Copyright @ 2015-2022 时代晚报网版权所有 备案号: 浙ICP备2022016517号-21 联系邮箱: 514 676 113@qq.com