对于(yú)那些(xiē)认为人工(gōng)智能是威(wēi)胁的人(rén)来说,可能不太喜(xǐ)欢 DeepMind 的最新(xīn)研(yán)究成果。这(zhè)家隶属于 Alphabet 的人工智能部门提出了名为(wéi) MuZero 的(de)新算法,能够让机器在不了解规(guī)则的情况(kuàng)下成功击败人类选手。这绝对是人工智能领(lǐng)域的一个惊人发(fā)展,因(yīn)为(wéi)该算法能够(gòu)让人(rén)工智能更(gèng)好地的应(yīng)对现实生活中的场景,而且不需(xū)要提供任何特定的(de)算(suàn)法。
DeepMind 在探索人工智(zhì)能的道路上从未停止脚步。在 AlphaGo 学会围棋(qí)并(bìng)成功(gōng)击败(bài)职业(yè)围棋(qí)手之后,DeepMind 又推出了 AlphaGo Zero,通过观察人和(hé)人之间的真实比(bǐ)赛,然后让两(liǎng)台计(jì)算机一同来(lái)下棋。
随(suí)后,该团队再次推出了(le) AlphaZero,只是在告知游戏规(guī)则的情(qíng)况下,实现了对围棋、将(jiāng)棋和国际象棋的熟练掌握。而现在该(gāi)团(tuán)队推(tuī)出的 MuZero,并没(méi)有告知任何的棋类(lèi)运行规(guī)则,让它自己通过观(guān)察(chá)来掌握(wò)围棋、国际象棋、将棋和 Atari 游(yóu)戏。
MuZero 在没(méi)有传(chuán)授(shòu)规则的情况下(xià)可以自己学(xué)习,制定相应的计划并(bìng)取得(dé)胜利。MuZero 可以在(zài)雅(yǎ)达利游戏中做同样的事情。新的人(rén)工智能在学习了规则之后,可以变(biàn)得和以前的版本一样好,甚至比以前的版本更好。
这(zhè)个项目的目标是提供一(yī)个单一的算法,可(kě)以(yǐ)让AI在不知道该(gāi)方案(àn)的(de)规则的情况下(xià)想出下一步行动。对于象(xiàng)棋(qí)和围(wéi)棋这样的游戏(xì)来说,这可(kě)能说起来(lái)容易做起来难,因为在这些游(yóu)戏中(zhōng),有一套预定义的动(dòng)作可以让你获得胜利或失败(bài)。但在大多数(shù)现实世界的情况(kuàng)下,如果没有(yǒu)获得复杂的算法,人工智(zhì)能可能难(nán)以(yǐ)驾(jià)驭更多的种类,而这种算法基(jī)本上可(kě)以让它思考。
但事实(shí)上 MuZero 并不会自己思考,更没有(yǒu)达(dá)到科幻小(xiǎo)说/电影(yǐng)中可怕的(de)人工智能。然而,DeepMind确实(shí)达到了一个重(chóng)要的里程(chéng)碑,如果它的(de)算法(fǎ)允(yǔn)许计算(suàn)机在它(tā)不知(zhī)道所有(yǒu)规则(zé)的模拟中提出(chū)一个胜利的解决方案。
Engadget解释说,MuZero在做决定时会考虑(lǜ)三(sān)件(jiàn)事。首先,它会(huì)考虑(lǜ)上一次行动的结(jié)果、当前所处的位置以及下一次行动的最佳方案。DeepMind发现(xiàn),MuZero与(yǔ)之前的AIs相(xiàng)匹配(pèi)。而(ér)且,它的时间(jiān)越多,它提供的解决方案就(jiù)越好。即使加入(rù)了时(shí)间限制,比如在行(háng)动前限制吃豆人女士的模拟(nǐ)次数,MuZero也取得(dé)了不错的效果。