Skip to main content

“王者絕悟”的AI江湖故事

2021-07-19 由【】發表於 科技

近日,2021 世界人工智能大會落幕。在現場,不少王者玩傢們見到瞭他們的老朋友 ———— 王者絕悟。它就像一個江湖隱士一樣,每隔一段時間會突然出現在人群中,風風火火地大秀一番操作,然後又回到 “山間小屋”,深藏功與名。

這次,DeepTech 采訪到王者絕悟團隊,揭開這個王者榮耀與騰訊 AI Lab 共同研發的策略協作型 AI 的 “神秘面紗”。

“天選之子”

2016 年,對於人工智能的大眾化普及來說,是一個很特殊的年份。

那一年, DeepMind 公司的 “AlphaGo” 大戰韓國圍棋國手李世石,引發瞭人們關於人類與機器誰更聰明的討論熱潮;那一年,HBO 名聲大噪的人工智能系列影視作品《西部世界》開播,人們又開始擔心人工智能是不是要叛變瞭。雖然這一想法著實有些遙遠,但是看得出來,國外研究者們的 “AI 基因” 已經非常躁動瞭。

圖 | 人工智能相關影視劇《西部世界》(來源:資料圖)

而把目光轉向國內,那一年,騰訊也開始瞭人工智能的投入 —— “AI+ 遊戲”;當時騰訊的重點,依然是圍棋 AI —— “絕藝”。

不過,像圍棋這樣的遊戲,大傢一眼就能看到全局,是完全信息遊戲。對於 AI 的訓練來說,需要一點 “更刺激” 東西。畢竟,張無忌在出生的島上,學到的可能隻是劈柴生火,隻有真正走進瞭江湖,他才能學到蓋世武功,才能一步步瞭解到漂亮女人有多 “危險”。

AI 同理,在單智能體測試環境裡,其測試結果和應用范圍也會受到局限。真正成熟的人工智能技術,必須能夠應對現實中一樣復雜多變的環境,以及具備能同時處理多件任務的 “大腦”。

國外,DeepMind、OPEN AI 相繼開展多智能體的研究。而在國內,王者絕悟誕生瞭。說得更深刻一些,王者絕悟的出現,其實承載瞭一份人們對人工智能技術跨越式突破的期待。

因為,騰訊的 “AI + 遊戲” 的人工智能研究路線,其實與海外的人工智能研究趨勢是相當吻合的 —— 在下一個復雜策略遊戲中,尋找 AI 裡程碑。而王者榮耀具備的不完全信息、動作空間復雜、一局裡高達 10 的 20000 次方種操作可能性,註定瞭其是測試人工智能技術的一塊絕佳良田。

圖 | 王者絕悟VS 王者榮耀職業人氣選手

但是,這一點即是好處,也是壞處。

好的地方在於成果,王者絕悟這個多智能體技術能夠在王者榮耀裡驗證成功,那麼其也就能夠更好地適應現實中的場景,發揮更大的應用價值。

而壞的地方在於過程,上文提到的信息獲取、動作空間等問題,都是擺在王者絕悟團隊面前的 “技術攔路虎”。神功不是一日練成的,這就意味著王者絕悟並非天生 “高手”。

“腹黑型”AI 的長成

回看王者絕悟的成長,有點像是一個初出茅廬的毛頭小子,一步步成為狡黠腹黑的江湖老炮兒的過程。

2018 年 12 月,王者絕悟在 KPL 總決賽登場。這個時期的王者絕悟,是通過監督學習的方法,模擬學習瞭 KPL 職業選手的操作。

所謂的監督學習,用人類的話來理解,相當於 “概念理解”。有些人將其形容為跟著師傅學功夫,其實也挺準確。如果遇到瞭好師傅,那麼他可能就能得到好的成績;但是如果遇到瞭不好的師傅,那可能就會模仿到一些不好的習慣。總之,監督學習的對象,決定瞭 AI 的天花板在哪兒。

因此,在那個階段,王者絕悟的水平,隻能算 “頂尖業餘水平”。

而到瞭 2019 年,隨著在深度強化學習上的不斷深入,王者絕悟則不再需要模仿人類數據,而是自己和自己對戰,進一步提升瞭微觀操作和大局觀。這個時期的王者絕悟已經非常成熟瞭,知道如何總結錯誤、提升自己對知識的掌握和認知。技術的進步,讓王者絕悟的反應能力和計算能力得到瞭質的提升。

在 2019 年世界冠軍杯半決賽的特設環節中,王者絕悟再次登場。隻是這一次,對面坐著的,是來自王者榮耀的職業戰隊選手。在這場全國矚目的賽事上,王者絕悟大秀一番操作,印證瞭自己:擊敗瞭王者榮耀的職業戰隊,能力已經精進到王者榮耀電競職業水平。

圖 | 王者絕悟概念圖

到瞭 2020 年,王者絕悟通過自我博弈,已經從單個或者固定英雄組合,高效地擴充到更多英雄組合的學習,並且正式向王者榮耀的玩傢開放。那個曾經的 “毛頭小子” 已經長大瞭,它召開瞭一場英雄大會,邀請各位一同華山論劍,試試招數的真假。

一方面,這增加遊戲玩傢們的體驗樂趣;另一方面,王者絕悟的出現,其實也在潛移默化地刷新大眾對於人工智能的基本認知—— 它不在是你手機裡的語音助手、或者是餐館裡按照路徑規劃送餐的機器人,而是一個可能比你想象中更聰明、更難纏的“高手”。

在這一次公開的用戶測試中,王者絕悟體現瞭不輸於甚至超越頂級人類玩傢的復雜場景決策能力。騰訊互動娛樂天美 L1 工作室總經理、王者榮耀執行制作人黃藍梟在一次公開演講中提到:在 2020 年 11 月 17 日 – 30 日的 “挑戰王者絕悟” 玩法中,總對局次數達到瞭 7276 萬;最高難度的挑戰裡,王者絕悟勝率達到 96.2%。

圖丨王者絕悟能力演進路線(來源:王者絕悟)

而到如今,根據王者絕悟團隊的形容,它不僅達到瞭全英雄職業電競水平,甚至能夠在對局前的 BP 環節就開始計算勝率;對局中也能不斷優化策略,尋找應對占據的最優解。簡單理解,就是現在的王者絕悟不僅掌握瞭所有英雄的使用方法,甚至聰明到隨時隨地地針對你,妥妥的一個腹黑型選手。

但是,擊敗人類並不是王者絕悟的使命。如上文所說,王者絕悟的誕生,是承載著人們對於人工智能技術突破的一份期待的。“高手”出山,不是為瞭在人群中尋找存在感的。王者絕悟的價值,也許還需要往遊戲之外來看。

尋找未知的“秘籍”

在 2021 世界人工智能大會上,騰訊公司董事會主席、首席執行官馬化騰曾提到:“AI 在為我們的生活帶來越來越多的便利,但我們對 AI 的未知仍然大於已知。我們追求科技向善,就要推動 AI 向善,讓 AI 技術實現可知、可控、可用、可靠。”

圖 | 2021世界人工智能大會,王者絕悟展區現場

這讓筆者想到瞭王者絕悟團隊在嘗試將產品應用於遊戲平衡性調整過程中的時候,發生過的一個小故事。

當時,團隊基於王者絕悟的測試數據調整瞭某個英雄的參數。但早期投放時,玩傢對該英雄調整的反饋卻恰恰相反。大傢都以為是不是王者絕悟的技術出現瞭 “BUG”。結果,隨著遊戲玩傢對該英雄的熟悉和嘗試,數據竟然很快提升到與王者絕悟的測試評價一致!

可見,其實王者絕悟存在的最大價值,就是“基於已知,驗證未知”,這個也許是在王者榮耀裡遊戲的未知,也可能是在整個人工智能發展過程中的未知。

畢竟,雖然多智能體系統自 20 世紀 70 年代出現以來迅速發展,已經成為進行復雜系統分析與模擬的思想方法與工具。但是,並沒有人知道,其現在需要突破的技術邊界到底在哪裡。你說它有問題,但是它已經大規模應用瞭;但是你說它沒問題,它的研究趨勢上也沒有出現一個像當初 “神經網絡” 一樣推動整個智能感知系統飛速發展的技術窗口。

因此,王者絕悟存在的重要性就顯得尤為突出 —— 通過一天堪比人類 440 年的測試效率,在王者榮耀這塊復雜的試驗田反復試驗,不斷驗證著人工智能技術在智慧上的邊界,進而尋找到真正的能夠通往通用人工智能技術終點上的那個 “未知” 的可能性。

而且,王者絕悟還不是一個 “人” 在做這件事兒。

如今,王者榮耀和騰訊 AI Lab 聯合打造的 “開悟” 平臺,希望把騰訊在算法、脫敏數據、算力方面的優勢開放給更多的學術研究人員和算法開發者,一起推動人工智能領域的發展;馬化騰在人工智能大會上也強調,“希望激發青年人對於通用 AI 的研究興趣”。

圖丨開悟與 18 所重點高校戰略合作(來源:王者絕悟)

就好像王者絕悟正在寫一本武林秘籍。沒有人知道裡面有什麼招式,甚至連王者絕悟這個高手自己也不知道。所以,它要不斷試驗、不斷測試來驗證每一招、每一式的力量。時不時,他還會跑出來和人們切磋一下,然後又跑回山中繼續它的研究,期待有一天這本秘籍能改變整個江湖。

結語

AlphaGO 所屬的 DeepMind 有一句標語:What if solving one problem could unlock solutions to thousand more ? 用中文的理解,即 “我們解決一個問題的方法,說不定能夠幫助我們解決更多問題。”

張無忌是虛構的,但是武俠精神是真實的。在許多人眼裡,王者絕悟也許現在僅僅隻是一個遊戲內的策略協作型 AI,但是其背後的多智能體技術,是切切實實通往通用人工智能重點的路徑之一。

也許有一天,當王者絕悟完成瞭那本秘籍,也就找到瞭那個解決上千個問題的 “solution”。

-End-

專業審核:REN