2016年3月19日 星期六

AlphaGo:Demis Hassabis、Aja Huang (黃士傑)、David Silver、Mustafa Suleyman、Shane Legg




----FT   2016年03月15日

在這場於首爾舉行的五局對弈中,AlphaGo目前以3:1領先

AlphaGo背後的人類策劃者是DeepMind的共同創始人兼首席執行官傑米斯•哈薩比斯(Demis Hassabis)。他把李世石形容為“圍棋界的羅傑•費德勒(Roger Federer)”,因此對一些人來說,AlphaGo的成就類似於一台機器人站上了溫布爾登的草坪並戰勝了這位網球傳奇冠軍。



我認為這是一個大事件,但是,最終還是要留給歷史來評判,”哈薩比斯在首爾接受英國《金融時報》(Financial Times)採訪時稱,“很多人之前預言至少還需要10年才能實現這一成就,所以我們對於達到這一里程碑感到很興奮。”39歲的哈薩比斯長久以來一直夢想著這場胜利。但是他的雄心已經不僅限於圍棋的棋盤。他的目標是“讓機器變聰明”。

哈薩比斯出生於倫敦,母親是新加坡華人,父親有希臘裔塞浦路斯人血統。他是現代版的通才博學家,既是國際象棋神童、大師級的計算機程序員,還是視頻遊戲設計師和神經學家。

這些經歷使得他在2010年與穆斯塔法•蘇萊曼(Mustafa Suleyman)和謝恩•列格(Shane Legg)一起創建了DeepMind。蘇萊曼是一位技術專家、哈薩比斯的童年好友,而列格是哈薩比斯在倫敦大學學院(University College London)讀神經學研究生時的同學。2014年,谷歌以4億英鎊的價格收購了這家人工智能公司。

“讓傑米斯更加與眾不同的是,天才往往很難相處,”計算機科學家和企業家赫爾曼•豪澤(Hermann Hauser)稱,“但是他很開朗、大度又謙遜,一點都不傲慢。”

哈薩比斯本科在劍橋大學(Cambridge University)學習計算機科學時接觸到了人工智能。當時大學講師堅持傳授有關“弱”人工智能的知識,即程序員為數據添加“標籤”讓計算機理解信息。

哈薩比斯對這種方式並不滿意。他希望打造“強”人工智能係統,後者能夠利用來自周圍環境的“非結構化”信息獨立決策並作出預判。

在DeepMind,計算機工程師在模擬人類大腦的神經網絡的基礎上創建程序。這類系統會犯錯誤,但是會隨著時間的推移學習和提高。可以對它們進行設定,讓它們玩其他遊戲和完成其他任務,因此這種人工智能是通用而非專用的,會像人類一樣“思考”。

遊戲是測試此類人工智能程序的理想方式,讓研究人員能夠將程序在遊戲中的表現與設定目標相比較。而哈薩比斯非常適合訓練計算機。作為一名13歲就獲得國際象棋大師稱號並參加了智力奧運會(Mind Sports Olympiad)的選手,他因在賽場間奔跑、同時與不同選手對弈而被人銘記。組織者認為他“或許是史上最佳選手”。

哈薩比斯喜歡玩人性隨機性強的遊戲。他贏過撲克錦標賽,並表示他喜歡這種遊戲是因為選手們可能每步都正確,但仍會輸掉比賽。他喜歡玩《外交》(Diplomacy)這款有著鬆散規則卻精彩紛呈的遊戲,在這款遊戲中,選手們為了稱霸世界,需要討價還價、締結聯盟、互相背後捅刀子。

圍棋是人工智能的“聖杯”。圍棋在2500年前起源於中國,如今全世界有4000萬人下圍棋,有1000名專業選手。

哈薩比斯表示:“我的圍棋水平足以讓我欣賞它的美。但圍棋不是我的強項,因此我沒有親自與AlphaGo對弈過,因為幾乎從一開始我就不是對手。”

計算機早就“解決了”諸如步步高和跳棋之類的其他遊戲。1997年,IBM的“深藍”(Deep Blue)超級計算機擊敗了當時的國際象棋世界冠軍加里•卡斯帕羅夫(Garry Kasparov)。程序員用深藍打造了一個試圖分析每一種可能走法的所有結果的系統。但圍棋要遠比國際象棋複雜得多。圍棋的棋局變數比宇宙中的原子數量還要多。即便是最強大的超級計算機也無法處理這麼多的信息。擊敗最強的人類選手需要史無前例的技術突破。

突破的時刻在上週三來臨——在3個半小時的對弈之後,李世石向AlphaGo認輸。這位人類冠軍棋手在輸棋之後感到“震驚”。第二天AlphaGo再次獲勝。儘管對這一成績感到驚嘆,但哈薩比斯警告稱,機器人技術等其他領域還有很長的路要走。

他說:“我們在人工智能領域取得的重大進展的一個古怪之處在於,看起來我們有了一個名叫AlphaGo的世界冠軍,但我們還沒有一台能夠在實體棋盤上落子的計算機。”費德勒目前還不會面臨類似的挑戰。

對哈薩比斯來說,創造在遊戲中擊敗人類的機器只是個試驗,是為了以後利用DeepMind的技術,“解決讓智能手機助手更智能等真實世界的挑戰,並在將來,利用這種技術幫助科學家們在醫療和其他領域解決一些最為緊迫的社會問題”。



-----香港練乙錚先生
、AlphaGo 三連勝.......
從賽前開始,媒體報道此事,往往視之為「人機對決」,今見大勢已去,「人類完蛋」之嘆,油然而生,但筆者認為不必,原因有3個:
第一,所謂的「機」(軟件加硬件),也是人類智慧產物。AlphaGo的博弈能力,是幾十年來不少科學家的心血累積(更不用說他們在過程中用上的各種數學方法,包含了千百年的根基);這與李世乭或任何一位高手潛心研究數千年來無數前人博弈經驗所得,並沒有兩樣。我們應該說,人類非但不是完蛋,而是找到了極可能是更好的一種下圍棋的方法,雖然這個方法只是很少數人可以弄懂、掌握。
第二,AlphaGo的「機器學習」(machine learning),所師法的對象,正正是人類本身。它「閱讀」了無數的古今圍棋棋譜,得其精要,反客為主,在頭三局的比併過程裏,走出不少圍棋專家(包括DeepMind的工程師)都認為是離經叛道的奇着,匪夷所思。但是,毫無疑問,世界上所有圍棋高手特別是李九段自己,一定會苦思AlphaGo走出的奇着而找出破解之道;也就是說,「人機對決」的另一面是「人機互學」,雖然「機」可能學得比「人」更快,但總的來說依然是對「人」有益。
第三,1952年,人類寫出了首個百戰百勝tic-tac-toe的博弈程式;1997年,IBM的Deep Blue「機」贏了國際象棋世界冠軍Garry Kasparov,分出了高下;今年,Google DeepMind的AlphaGo,可說也把圍棋「解決」了。但是,這三種博弈,數學上都屬於同一類,即所謂的「完全資訊博弈」(games of perfect information);指的是,在博弈過程中的每一步,博弈者都清楚知道自己和對手在之前走過的每一步是什麼。至於「非完全資訊博弈」(例如各種撲克遊戲、麻雀等),人機對決還處於初始階段,「機」要勝過「人」,還需一段日子。至於像「包剪揼」那樣的一個簡單「同步出招遊戲」,「機」還根本不能保證取勝。人類起碼到目前為止,仍然勝在可以發明各種遊戲規則;這方面的研究,稱為ludology,幾乎盡是「人」的天下!
大家有興趣,不妨瀏覽Google DeepMind網站。有計算機學歷、懂人工智慧(AI)理論的讀者更不妨去電郵應徵,因為這間公司正在招攬人才!網站裏關於AlphaGo的那部分的一個分頁,列出了所有該公司研究人員發表過的論文,其中最新也是最重要的一篇,排頭的兩位作者是David Silver和Aja Huang,文末說明他們兩人是主要作者,有同等貢獻。
Aja Huang就是台灣人黃士傑,Google DeepMind台柱之一,很年輕。大家若在YouTube實時觀看AlphaGo與李九段博弈,那位替AlphaGo搬動棋子的人就是他。英雄莫問出處,黃不是哈佛MIT,也不是牛津劍橋培養出的「尖子」;他的計算機科學博士學位(2011)是在台灣師範大學拿的。黃並非書呆子,精通compsci之餘,他還是圍棋的業餘六段好手;據他的一位師妹說,他寫的人工智能軟件所創作出的音樂也非常動聽【註4】。

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。