為什麼柯潔一局都贏不瞭? AlphaGo訓練量遠超對手
文|李李 南戈
5 月 23 至 27 日,曾戰勝圍棋世界冠軍李世石的谷歌人工智能 AlphaGo,在浙江烏鎮挑戰目前世界排名第一的人類棋手柯潔九段。
今天下午,柯潔首戰告負,輸四分之一子。
在人類棋手之間,這種結果說明雙方棋藝基本旗鼓相當。所以有人據此認為,柯潔隻是惜敗。
事實上,柯潔遠非惜敗,而是 AlphaGo 完全掌控瞭棋局,在確保勝利的同時,不冒無謂的風險。
在這場人機大戰開賽前,前谷歌大中華區總裁李開復就公開表示:柯潔必敗毫無懸念。
不僅科技界人士這麼認為,概率也顯示柯潔幾無勝算。根據國際職業圍棋 Elo 等級分制度排名,可算出 AlphaGo 每盤的獲勝概率為 99.37% 。說這是一場起重機與舉重選手的比賽並不為過。
▍2016 年 7 月 18 日,AlphaGo 超越柯潔成為 Elo 排名第一(左側排名),之後不久就被柯潔反超(右側排名)。2017 年 2 月初,Go Ratings 網站刪除瞭 AlphaGo、DeepZenGo 等圍棋人工智能在該網站上的所有信息,目前世界排名第一的柯潔 Elo 3620/ 數據來自:gorating.org
▍AlphaGo 開發團隊主管 David Silver 使用 Elo 算法評估 AlphaGo 的 Elo 為 4500。對陣柯潔,AlphaGo 的勝率 P(A) = 1/(1+10^((3620-4500)/400))/ 圖片來自:Advanced Study Room
從擊敗樊麾二段(Elo 3000 左右),到擊敗李世石九段(Elo 3500 左右),AlphaGo 隻用瞭五個月。相比之下,從 Elo 3300 到 3600,天才棋手柯潔走瞭將近五年。
▍柯潔的 Elo 上升路徑/ 圖片來自 goratings.org
2016 年底懷孕滴雞精,AlphaGo 化名“Master”橫掃圍棋網戰平臺時,即已強大到讓柯潔感嘆“人類幾千年來總結的棋譜都是錯的”。
AlphaGo 為什麼這麼厲害?它到底是怎麼下棋的?人類頂尖圍棋高手在人工智能面前的集體潰敗,意味著什麼?
寡不敵眾的世界冠軍
早在 20 世紀 50 年代,計算機科學傢就開始研究讓人工智能與人類下棋瞭。棋盤遊戲是人類智力的博弈,如果能達到頂尖棋手的水平、甚至超過他們,便可證明人工智能變得更聰明、更有靈活性。
人類下棋,是經驗、理性與靈感的結合。
昭和棋聖吳清源就將決定圍棋勝負的三個要素歸納為:實力、氣力和運氣。
以此標準,人工智能“先天不足”,隻有理性,靠什麼與人對弈?
一言以蔽之:搜索。
早在 1952 年,人工智能就通過窮舉所有可能性的”暴力搜索“,在井字棋這樣的小型棋類遊戲中戰無不勝。
▍在谷歌搜索框中輸入“tic-tac-toe”,就能跟電腦下井字棋/ 圖片來源:theverge.com
下面這幅樹狀圖,展示瞭井字棋遊戲中可能出現的部分棋盤情況。
人工智能要做的,就是沿著這棵“遊戲樹”一步步往下搜索,在所有可能出現的棋盤局面中,根據最有利於己方的終局結果,向前回溯至當前節點,決定下一步應該怎麼走。
但對棋盤更大、可能性更台中滴雞精推薦多的遊戲,暴力搜索就行不通瞭,因為棋局的可能性遠超人工智能的運算能力,純靠搜索不可能下贏頂尖棋手。
國際象棋和圍棋一度被認為是“人類智慧的最後堡壘”,原因就在於此。
▍國際象棋的棋盤為 8x8 的網格,在對陣雙方各走三步以後,可能出現的棋局就超過九百萬種
要在這類遊戲中戰勝人類,人工智能必須在暴力搜索的基礎上優化改進。
取得突破的是 1997 年 IBM 開發的人工智能深藍,它戰勝瞭國際象棋世界冠軍卡斯帕羅夫。這是歷史上人工智能首次在正式比賽中,下贏國際象棋頂尖棋手。
相較用於井字棋的暴力搜索,深藍的改進主要在兩個方面:
一,優先搜索勝率最大的棋局,以便能預測更多步以後的棋盤情況;二,即便如此,也無滴雞精比較法像井字棋那樣搜索到最終局,這時就要評估當前棋局做出評估,判斷下一步怎麼走,未來勝率更大。
不論是搜索還是評估,深藍的算法都包含瞭大量的人類智慧。深藍僅評估算法就有 8000 多個部分,很多是為特定棋局專門設計的。為完善算法,提高勝率,IBM 還專門請來包括國際象棋特級大師喬爾·本傑明在內的多位頂尖棋手做參謀。
因此,與其說深藍戰勝瞭人類,不如說超級計滴雞精團購算機+科學傢+一群頂尖棋手,戰勝瞭一個卡斯帕羅夫。
▍卡斯帕羅夫與深藍對弈/ 圖片來源:theverge.com
但是,深藍這種人工調試算法的策略,在圍棋上卻難以取得相同戰績。
這是因為,圍棋的可能性和變數都遠超國際象棋,即使最頂尖的圍棋選手,也很難用有邏輯的語言清晰闡釋自己的下棋策略,更不用說把這種策略轉化為計算機能夠理解執行的編程語言。
人工智能的勝利
圍棋的棋盤為 19x19 的網格,比國際象棋大,可能的下法(10^174)超過已知宇宙中所有原子數目的總和(10^80)。巨大的變數和可能性,讓圍棋棋道幾乎成為一門玄學。
AlphaGo 下圍棋的策略,與按人類預設劇本下棋的深藍不同,其下棋算法沒有經過人工調試,全部是靠自己“學會”的。
▍AlphaGo 的“遊戲樹”/ 圖片來源:Nature
AlphaGo 怎麼“學”?答案是人工神經網絡。
人工神經網絡是一種計算模型,可以在海量數據中找出規律。近年來,人工神經網絡在人臉識別、機器翻譯等領域被廣泛應用。
▍如果人臉識別技術大規模應用,丁義珍就跑不瞭瞭
▍與人類神經網絡類似,人工神經網絡的基本單位是神經元。一個神經元可以接收多個輸入,在計算後可以產生一個輸出。一個神經網絡有若幹層,每一層由成百上千個神經元組成。A:生物神經元,B:人工神經元(左側箭頭代表多個輸入,右側箭頭代表一個產生的輸出),C:突觸,D:人工神經網絡/ 圖片來源:InTechOpen
AlphaGo 使用瞭兩種人工神經網絡,一個是預測網絡(policy network),一個是評估網絡(value network)。預測網絡用來預測對手下一步可能怎麼走,評估網絡則用來評估給定棋局下己方的獲勝概率。
▍人工神經網絡要用海量數據訓練。AlphaGo 輸入瞭至少三千萬種棋局,自我博弈超過一百萬次。在與李世石對決前,AlphaGo 預測對手的準確率達到 57%——超過半數的情況下,AlphaGo 能猜中對手下一步會怎麼走/ 圖片來源:Nature
相比深藍,AlphaGo 采取的策略效率更高,戰績更輝煌。借助遠勝於深藍的計算能力和搜索策略,AlphaGo 搜索的深度與廣度均大幅提高;深藍要靠人工調試的算法才能戰勝卡斯帕羅夫,AlphaGo 的下棋策略,卻完全是靠自己在海量數據中摸索出來的。
這是真正的人工智能對職業棋手的勝利。
▍AlphaGo 的研發團隊中僅有黃世傑博士(業餘四段)一人會下圍棋。在與李世石的對決中,黃博士代為執子。
理解瞭 AlphaGo 怎麼下棋,就不難理解為什麼柯潔必輸。
首先,AlphaGo 的訓練量、所見棋局和進步速度都遠超柯潔。
AlphaGo 見過、下過的棋,以百萬計。柯潔的訓練量,我們做最樂觀的粗略估算,也難以超過五萬局。
▍根據啟蒙老師李守勝的說法,“柯潔可以說還在娘胎裡的時候,就是聽著圍棋聲長大的”。我們假設 1997 年出生的柯潔,從負一歲就開始下棋,每天 24 小時不眠不休,每局 4 小時,在整整 21 年中,也隻能下不到 5 萬局。
需要指出的是,人類對棋譜的利用率遠超人工智能。職業棋手通過幾十局棋譜,就能大致摸清對手棋路。人工智能卻需要至少數以萬計的棋譜,才有可能發現其中規律。
而且,並非數據“喂”得越多,下棋水平越高。輸入海量數據後,人工智能仍不得法的情況也很常見。
不過,一旦找到瞭規律,人工智能就進步神速。AlphaGo 隻用兩年,就從零起步登頂世界第一,手下敗將包括李世石、聶衛平、柯潔。
這次與柯潔對弈的 AlphaGo,滴雞精價格也不同於去年大戰李世石的版本。
AlphaGo 有分佈式版與單機版兩個版本,去年與李世石對決,AlphaGo 還需動用分佈式版全力以赴,今次隻需單機版就能輕取棋藝更高的柯潔。兩個版本的計算能力差距懸殊,單機版運行在 48 個CPU 和 8 個 GPU 上,分佈式版運行在 1202 個 CPU 和 176 個 GPU 上。
或者說,對李世石是群毆,對柯潔是單挑。
▍2017 年初,AlphaGo 化名 Master,在在線快棋對決中,橫掃中日韓頂尖棋手,獲 60 勝 0 負 1 平。唯一一次平局是因為對手掉線,比賽不得不提前終止。擊敗聶衛平後,代為執子的黃世傑博士在對話框中敲出“謝謝聶老師”。
柯潔有沒有可能通過研究 AlphaGo 的棋譜找到對手的弱點呢?
可能性非常小。時至今日,AlphaGo 的圍棋下法已經超出瞭人類經驗和理解力范疇。理論上,大傢都知道,AlphaGo 是按概率下棋。但實戰中,棋手猜不出 AlphaGo 下一步會怎麼走,AlphaGo 卻不僅猜得中,還算得出各種下法勝算幾何。
數千年來,人類學習圍棋的方式更多是依靠經驗。這種經驗可能來自前人棋譜,也可能來自長年累月的對弈訓練出的“直覺”。
這種經驗,既成就瞭柯潔,也束縛瞭柯潔。它讓柯潔可以站在前人的肩膀上往更高處攀登,但也局限瞭他對圍棋的理解和創新。
當看到 AlphaGo 下出棋論上的“臭棋”,卻所向披靡時,柯潔便會發出文章開頭那樣的驚嘆,認為人類幾千年來在圍棋上的所有積累都化為烏有瞭。
盡管柯潔試圖跳出這種局限,但不論他研究 AlphaGo 的棋譜,還是和其他人工智能下棋,在 AlphaGo 強大的運算和預測能力面前,這樣的努力都無異於大海撈針。
AlphaGo 的勝利,雖然難免給柯潔個人造成不快,但對更多人來說,體現的是意義非凡的技術進步。
如果把“尋找圍棋的至高真理”看做一個懸疑千年未解的難題,將職業棋手和人工智能看做人類解決這個難題的不同嘗試,AlphaGo 的勝利顯然意義非凡,仿佛一百年前拖拉機的成功問世。
▍拖拉機的發明,讓人類有瞭比馬更高效的生產工具。上圖顯示瞭拖拉機出現後,美國農場 1910 年到 1960 年,拖拉機和馬、騾子數量的增減對比。藍色代表拖拉機,紅色代表馬和騾子/ 圖片來源:Economic History Association
計算機科學傢開發 AlphaGo,並不是為瞭給人類創造修身養性的工具,而是像谷歌研究總監彼得·諾維格所說,希望用人工智能解決人類自己也不知道如何解決的問題。
圍棋是對抗類、回合制、無隨機性的完全信息遊戲,AlphaGo 的算法可以為具備同樣條件的場景,提供解決問題的參考方案。
▍圍棋的“無隨機性”是指對手可以落棋的位置、手中的棋,以及開局以來到現在為止的所有棋盤信息都是已知的。撲克屬於非完全信息遊戲,有隨機性,因為其他玩傢手中的牌是未知的。
未來十年,如果具備精準決策能力的人工智能獲得大范圍的應用,金融、醫療、法律、交通、公共安全等領域都將發生翻天覆地的變化。
一年多來人類高手們的接連慘敗,也許隻是一個偉大故事的開頭。
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表