當(dāng)?shù)貢r間 1 月 30 日,在賓夕法尼亞州匹茲堡的Rivers 賭場,卡耐基梅隆大學(xué)(CMU)開發(fā)的Libratus人工智能系統(tǒng)擊敗人類頂級職業(yè)玩家。這次比賽共持續(xù) 20 天,4位德州撲克1 對 1 頂尖高手一起同電腦進(jìn)行 了12萬局無限制德州撲克對決。
比賽過程中,人類選手整體上從未領(lǐng)先過。進(jìn)入比賽最后一天時,Libratus 贏得156 萬籌碼。人類選手要挽回劣勢,只有不到 5,000 手的機(jī)會。
與Libratus對抗中的德?lián)鋵I(yè)選手JasonLes
感興趣的童鞋可以回看直播:
JasonLes 說,最后的感覺就是,自己所能做的就是輸,這太打擊士氣了。
另一個選手Jimmy Chou 回顧比賽時說到,他和其他牌手此前完全低估了 Libratus 的能力。
「這個人工智能程序每天都在進(jìn)步,在牌桌上,我們就像在面對加強版的自己。」
Libratus 是一個玩無限德州撲克的人工智能程序,它的策略并非基于專業(yè)玩家的經(jīng)驗,所以它的玩牌方式有明顯的不同。基于在匹茲堡超級計算機(jī)中心大約 1500 萬核心小時(core hours)的計算,它使用算法分析德?lián)湟?guī)則,建立自己的策略。創(chuàng)造Libratus 使用的算法并非為撲克專門設(shè)計的。在面臨不完全或誤導(dǎo)信息時,該人工智能進(jìn)行推論的能力有著廣泛的潛在應(yīng)用,包括業(yè)務(wù)談判、醫(yī)療、網(wǎng)絡(luò)安全、競拍等等。
為什么是撲克呢
圍棋被視為棋盤游戲的珠峰,其復(fù)雜程度遠(yuǎn)甚過其他游戲。不過,論挑戰(zhàn)性,仍然稍遜撲克。
在真實世界中,撲克是一種有關(guān)不確定性的游戲 ——即不完整信息博弈。玩家并不知道其他對手手里的牌。也不清楚以后會有什么牌。在類似圍棋或國際象棋的游戲中,所有玩家都可以看到棋盤。每個玩家的信息都是完整的。這使得圍棋和國際象棋要比撲克容易玩得多。
比賽中的 Daniel McAulay
「在完整信息博弈中,計算機(jī)可以在決策樹中進(jìn)行分析,」CMU 教授 Tuomas Sandholm 解釋道,他與自己的博士生 Noam Brown 共同開發(fā)了 Libratus 系統(tǒng)。在國際象棋和圍棋中,人工智能可以通過預(yù)測所有未來步驟的勝率來思考自己的下一步。「然而在不完整信息博弈中,事情就變得復(fù)雜起來了,你不知道對面手握什么底牌,」Sandholm 解釋道。「這意味著你不能在決策樹的架構(gòu)下選擇下一步了。而且,你也不知道發(fā)牌員在 flop、turn 和 river 上發(fā)出的下一張牌是什么。」
不完整信息博弈早已被證明是難以攻克的計算機(jī)難題。對此,CMU的人工智能研究者們專注于信息集,通過同時思考未知和已知變量各種可能狀態(tài)的方式來進(jìn)行預(yù)測。這需要強大的計算能力。「德州撲克有 10 的 160 次方個信息集,還有 10 的 165 次方個游戲樹節(jié)點」 這意味著牌局的可能性大于宇宙中所有原子的數(shù)量(目前可觀測宇宙約有 10 的 75 次方個原子)。「而且即使宇宙中的每個原子是一個宇宙,所有原子的數(shù)量也無法與牌局的可能性數(shù)量相比。」
另外,撲克也需要懂點其他玩家的心理學(xué)。他們有沒有在唬牌?需不需要蓋牌?你要不要也唬牌?最后,還需要下注。啥時候下注?賭啥?這些都為編寫擊敗人類選手的撲克程序增加了難度。
怎么贏了比賽?
Libratus 贏得過程的細(xì)節(jié)仍然是個秘密。但我們能在卡耐基梅隴大學(xué)之前的研究基礎(chǔ)上,憑經(jīng)驗猜出個八九不離十。最有趣的或許是這次的勝利依靠更多的是 Good Old Fashioned AI(GOFAI)而不是當(dāng)前時髦的深度學(xué)習(xí)過程。
就像象棋比賽中的深藍(lán)一樣,Liberatus 用了很多蠻力計算來發(fā)揮到最佳水平。我們知道它動用了匹茲堡的超級計算中心來完成每一場比賽。每個夜晚,Libratus 都會使用這臺超級計算機(jī)優(yōu)化它的策略。這么做是為了防止大家覺得這樣對人類選手不公平,職業(yè)選手在每場比賽后晚上也聚在一起為第二天的比賽商討表現(xiàn)和計劃。Libratus 還利用了博弈論。與 AlphaGo 不同,Libratus 系統(tǒng)不通過分析大量可能的下一步完成任務(wù),而是通過平衡風(fēng)險與收益來決定自己的下一步——在納什均衡定義中的完美游戲狀態(tài)。
JohnNash,電影《美麗心靈》的原型,在 20 世紀(jì) 50 年代創(chuàng)立出這一偉大理論,它隨后成為博弈論的基石,并讓Nash在1994 年獲得了諾貝爾經(jīng)濟(jì)學(xué)獎。
「在存在兩名玩家的零和游戲中,如果有一人不遵從納什均衡的策略,那么兩名玩家獲得的收益都將受損,但我們的系統(tǒng)不會這樣,」研究者解釋說。「在此類游戲中,以納什均衡的方式思考是最安全的。遵從規(guī)律的玩家將合理地獲得受益,同時在任何地方都不會被對手利用。」
Libratus 的打法讓它所向披靡。
接下來會發(fā)生什么?
這只是個開始。Libratus玩的僅僅是雙人版單挑無限額德州撲克。玩家增多會大大增加游戲的復(fù)雜性。因此,在計算機(jī)還需要幾年時間才能夠?qū)顾膫€或更多玩家。
本文經(jīng)機(jī)器之心(ID: almosthuman2014)授權(quán)轉(zhuǎn)載,厘米腳印編輯,禁止二次轉(zhuǎn)載。
作者:微胖、杜夏德、朱思穎