如(rú)果只(zhī)是作为驾驶模拟器,可能(néng)很平庸,但对(duì)电子游戏画面来说,这(zhè)可(kě)能(néng)是一场(chǎng)伟大的革命 。
图|真实视频(左)和(hé)AI生成的渲染(rǎn)视频(右(yòu))之(zhī)间(jiān)的对比(bǐ)。(图源(yuán):英伟(wěi)达)
最近人工智(zhì)能的繁(fán)荣给图像和视频生成领域(yù)带(dài)来了一系列令人印象(xiàng)深刻的成果。最新成果来自芯片(piàn)制造商英伟达,该(gāi)公司12月3日发布了一份研究报告,展示(shì)了AI生成的画面(miàn)如何与传统的视频游(yóu)戏引擎相(xiàng)结(jié)合。这(zhè)种混合图形(xíng)系统(tǒng)有(yǒu)望应用到视频游戏(xì),电影(yǐng)和虚拟现(xiàn)实等方面(miàn)。
“这(zhè)是使用深度学习渲染视(shì)频内容(róng)的一(yī)种(zhǒng)新方式,”英伟(wěi)达应用深度学习(xí)副总(zǒng)裁Bryan Catanzaro表示。“显然,英伟达非常关心图形(xíng)生成,并(bìng)且我们正在(zài)思考如何利(lì)用人工智(zhì)能(néng)彻底改变这一领域。”
英伟达的生(shēng)成的图片并没有达到真实照片级的画面,他们展(zhǎn)示了在 AI 生成的图像中发(fā)现的一些(xiē)水印状的模糊。并且这(zhè)一工作(zuò)也不是完(wán)全创新的。在一篇研究论文中,该(gāi)公司的(de)工(gōng)程师解释了他们如何基(jī)于(yú)一些现有方法(fǎ),包括一个有影响力的开源系统(tǒng)pix2pix。此外英伟达(dá)的工作中还应用到了生成对抗网络(GAN)。这些方法已(yǐ)经广泛用(yòng)于AI图像生成。
但是英伟(wěi)达还是在(zài)新产(chǎn)品中(zhōng)引入(rù)很多创(chuàng)新,这是世界上首个利用AI生成图形(xíng)画面的视频(pín)游戏演示。这个产品是一个简单的驾驶模拟器,玩家可以在AI生成的几个城市街区(qū)中穿行,但不能离开他们的(de)汽车,也不能以其(qí)他方式与世界互动。并且(qiě)这一演示仅使用一(yī)个GPU即可实现 ,对于这样的前沿工作来说,这是一个(gè)显著的成就。
英伟达的系统利用(yòng)如下几个(gè)步骤生成图形画(huà)面:首先(xiān),研(yán)究人(rén)员必须收集训练数据,一般这些数据来自于自动驾驶(shǐ)研究的开源数(shù)据集(jí)。然后将这些视(shì)频数据(jù)中的(de)每一个镜头做分(fèn)割(gē),即每一帧(zhēn)画(huà)面被分成不同类别的区域:如天(tiān)空,汽(qì)车,树木,道路,建筑物等(děng)。然后,用这些(xiē)分割的数(shù)据(jù)训练生成对抗网络,用来生成(chéng)这些对象的新画面 。
接下来,工程师们使用传统(tǒng)的(de)游戏引擎创(chuàng)建了虚拟环境的基本(běn)拓扑结构。在该(gāi)游戏演示中,使(shǐ)用的系统是虚幻引擎(qíng) 4,这是一(yī)种流行的引擎,被(bèi)用(yòng)于(yú)诸如堡(bǎo)垒之夜(yè),绝地(dì)求生,战(zhàn)争机(jī)器4等多种游戏中(zhōng)。工程师(shī)们(men)使用(yòng)此引擎作(zuò)为框架,然后利用深度学习(xí)算法实时生成每个类别(bié)的(de)图形画面,并将它们显示到游戏引擎的模型上 。
“被创造(zào)的世界的结构还是用传统方法制作(zuò)的,”Catanzaro解释说(shuō),“人(rén)工智能产生的唯一东西就是图形画面。”他(tā)补充说,演示本身很基础,主要(yào)由一名工程师负责完成。“这主要是(shì)用来做概念验证游戏,而不是开发了一(yī)个真正的游(yóu)戏 。”
图|不同AI模型(xíng)生成的画面(miàn)对比。左上是经语义分割(gē)的图(tú)像;右上(shàng)是pix2pixHD生成的画面;左(zuǒ)下是 COVST 生(shēng)成的画面(miàn);右下是本文英伟达的系统生成(chéng)的画面。(图源:英伟(wěi)达)
为了创建这个(gè)系统,英伟达(dá)的工程师克服了许(xǔ)多挑战,其中最大的挑(tiāo)战是(shì)对象持(chí)久性(object permanence)。也就是(shì)说,如果深度学(xué)习算法以每秒 25 帧的速率为这一虚拟世界生成(chéng)图形(xíng),它们如何(hé)保持每一区(qū)域的对象(xiàng)看起来大致相同?Catanzaro这个问题曾导致这个系统的初始结果“看(kàn)起来很痛苦(kǔ)”,因为图形的颜色和纹理(lǐ) “每(měi)帧都会改变 ”。
而(ér)解(jiě)决的(de)方案就是给系统一(yī)个短期记(jì)忆(yì),让系统生成的每个(gè)新帧的时候与之(zhī)前的帧进行比较(jiào) 。试图去预测这(zhè)些图像之间(jiān)运动的东西,并产生与屏幕上的(de)内容一致的(de)新郑但是这些计算(suàn)都很(hěn)昂贵,因此游戏只能以每(měi)秒25帧的速(sù)度运行(háng)。
Catanzaro强(qiáng)调,这(zhè)项技(jì)术还处于早期阶(jiē)段,想要让人工(gōng)智能(néng)生(shēng)成的画面出现在消费者游戏中可能(néng)还需要几十年的(de)时间。他将这种情(qíng)况与光线追踪(zōng)的发展进行了比较,光(guāng)线跟踪是当前(qián)图形渲染中的热门技术(shù),它可(kě)以实(shí)时(shí)生成单独的光线,在虚(xū)拟环境中创建逼真的反射,阴影和(hé)不(bú)透明度。Catanzaro表示:“第一次交(jiāo)互式光线追踪(zōng)演示(shì)已(yǐ)经是很久很久以前(qián)的事了,但直到几周前(qián)我们还没有在游戏中成功应用(yòng)光线跟踪技(jì)术”。
不过(guò),人工智能生成的画面工(gōng)作确实在机器(qì)人和自动驾驶汽(qì)车(chē)等研究领域有潜在的应用前景,可以用来生成虚拟训练(liàn)环境。例(lì)如,在大部分游(yóu)戏中,结构仍使用传(chuán)统方法渲染,而AI用于创建其中的人或物(wù)体 。消(xiāo)费者可以使用(yòng)智(zhì)能手机自己捕捉素材(cái),然后将这(zhè)些数据上传(chuán)到云端,算(suàn)法将通过学习将其插入到各种(zhǒng)游戏(xì)中。比(bǐ)如说(shuō),将其用来创建更像真人(rén)玩家的头像。
然而,这种技术带来了一些明显(xiǎn)的问题。近年来,专家越来越担心有些人会使用 AI 生成(chéng)的足以乱真的(de)假情报进行虚(xū)假宣传 。研究人员展示,现在很容易制作一些(xiē)虚假的政治(zhì)家和名人(rén)的(de)镜头,利(lì)用这些视(shì)频散(sàn)播一些(xiē)的虚假消息,这将会是不(bú)法之徒一个(gè)很强大(dà)的武器。如果推进这项技术的发展并将这(zhè)一研究(jiū)成(chéng)果发布,英伟(wěi)达(dá)在一定程度上可以(yǐ)说是这一(yī)潜在(zài)负面问题的推动者(zhě)。
不过,英伟达表示,这并(bìng)不是一个(gè)新问题。“这一技术可以(yǐ)用于制作具有误导性的(de)内容吗?是。但是任(rèn)何渲染技(jì)术都可以用来做到这一点(diǎn) ,”Catanzaro表(biǎo)示(shì),英伟达正在与合作伙伴(bàn)一起研究检测AI赝品的(de)方法(fǎ),这种(zhǒng)所谓的虚假信息的问题本质上是一(yī)个“信任问题”。就像之前许多(duō)的(de)“信任问题”一样,它必须通过(guò)一系列方法来解决,而不仅仅是通过(guò)技术 。
Catanzaro反问(wèn)道:“电力公司创造的电力可以为制作假(jiǎ)视频的(de)电(diàn)脑供电,你觉(jiào)得他们需(xū)不需(xū)要负责(zé)?”。
不过归根结底,对于英伟达来说,推动人(rén)工智(zhì)能生(shēng)成的图形(xíng)有一个(gè)明(míng)显的好处:它将有(yǒu)助于英伟(wěi)达销售更多的硬件。自从(cóng)深度(dù)学习(xí)热潮在(zài)2010年初兴起以来,英伟达的(de)股价飙(biāo)升,很(hěn)明显(xiǎn)英伟(wěi)达的(de)计算机芯片非常适合机器学(xué)习研究和开发(fā) 。
对于计算机图形学(xué)的人工智能革命是否(fǒu)会有利于英伟达公司的收入,Catanzaro笑着说,至少不会带(dài)来伤害。“任(rèn)何(hé)能(néng)够(gòu)提高生成更逼真和(hé)更具(jù)吸引力的图(tú)形的能力,都会对英伟达有利(lì) 。”