close

AlphaGo勝利過後的思考 AI將影響經濟和安全領域

本文選自milesbrundage,作者:Miles Brundage,機器之心編譯出品,編譯:吳攀、陳剛、孟婷、柒柒、Wei。

AlphaGo戰勝樊麾的消息引得瞭媒體的廣泛關註,人工智能和圍棋相關領域的專傢們也普遍認為這是一個具有重要意義的裡程碑。例如英國圍棋協會主席Jon Diamond將這一次AlphaGo的勝利稱作‘棋力上重大的突飛猛進’;人工智能研究者Francesca Rossi、Stuart Russell和Bart Selman分別將其描述為‘重要的成就’、‘瞭不起的成就’和‘具有重大意義的成就’。AlphaGo的勝利到底有多重大,多瞭不起呢?本文中,在近來計算機圍棋發展歷史、通用人工智能領域進步和技術預測的大背景中,作者將對這個問題進行簡要地回答。簡單來說,這確實是一個瞭不起的成就,但在更大的背景下審視它,能讓我們對該成就的大小、突然性、重要性有更多瞭解,從而減少片面的判斷。盡管如此,某種程度上這仍然是人工智能歷史上的極具啟發性的一頁,除瞭新聞報道中的一致好評,它還值得擁有更多註解與分析。因此,除瞭對比事實與炒作,本文還將嘗試從AlphaGo的第一次勝利中提取一些關於人工智能進步速度與本質的經驗教訓,並說明我們應該怎樣看待三月份即將到來的它和李世石的比賽。

發生瞭什麼?

谷歌DeepMind一個15-20人組成的團隊設計的系統AlphaGo在正式圍棋比一般家庭抽肥賽中以5:0的成績擊敗瞭曾三次獲得歐洲圍棋冠軍的樊麾。在非正式比賽中樊麾曾以更少的每步用時在5場比賽中獲勝2場(新聞報道中常常忽略瞭這些更多的有趣細節,相關情況也可查看《自然》論文)。AlphaGo程序比以往任何圍棋程序更加強大(下面會介紹它到底有多強)。

怎麼辦到的?

相比於其它計算機圍棋程序相關團隊,AlphaGo由一個相對較大的團隊研發發,顯然使用瞭更多的計算資源(詳見下文)。該程序使用瞭一種新穎的方式實現瞭神經網絡和蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)的結合,並經過瞭包含監督學習和自我訓練的多個階段的訓練。值得註意的是,從評估它與人工智能進步關系的角度來看,它並沒有接受過端到端(end-to-end)的訓練(盡管在AAAI 2016上Demis Hassabis表示他們可能會在未來這樣做)。另外在MCTS組件中它還使用瞭一些手工開發的功能(這一點也常常被觀察者忽略)。相關論文宣稱的貢獻是‘價值與策略網絡(value and policy networks)’的構想和他們整合MCTS的方式。論文中的數據表明,使用這些元素的系統比不使用它們的系統更為強大。

整體AI性能vs特定算法的進步

仔細研究《自然》 上關於AlphaGo的論文,可以得到許多觀點,其中一個對評估該結果所擁有的更廣泛意義尤其重要:硬件在提高AlphaGo性能上的關鍵作用。參考下面的數據,我將對其進行解釋。

01該圖表顯示瞭計算機Go與樊麾在估測Elo評級和排名方面的些許不同(譯者註:Elo評級系統是由美國物理學教授Arpad Elo提出的一種計算二人競技遊戲(如象棋、圍棋)中選手相對水平的評級系統)。Elo評級表示瞭擊敗評級更高或更低對手的期望概率——比如,一個評分比對手多200分的選手預計獲勝的概率為四分之三。現在我們可以通過圖表瞭解一些有趣的信息。忽略粉紅色數據條(表示在有額外棋子時的表現),我們可以發現AlphaGo(不管是不是分佈式的)都比原來最好的圍棋程序Crazy Stone和Zen強出許多。AlphaGo的等級是較低的專業級水平(圖表右側的p表示‘專業段位’),而其它程序則處在較高的業餘水平上(圖表右側的d表示‘業餘段位’)。另外,我們可以看到盡管分佈式AlphaGo(AlphaGo Distributed)的評估水平略高於樊麾,但非分佈式AlphaGo卻並非如此(和樊麾比賽的是分佈式AlphaGo)。看起來樊麾如果和非分佈式AlphaGo對弈,可能他就算不獲勝,至少也可以贏幾局。

後面我會談更多關於這兩種AlphaGo和其它變體之間的不同,但現在請註意一下上圖遺漏的東西:最新的圍棋程序。在AlphaGo的勝利之前的幾周和幾個月裡,圍棋界將顯著的活動和熱情(盡管團隊小一些,比如Facebook就1-2個人)投入到瞭兩個圍棋引擎上:由Facebook研究人員開發的darkforest(及其變體,其中最好的是darkfmcts3)和評價很高的Zen程序的新實驗版本Zen19X。請註意,在今年一月份,Zen19X在KGS服務器(用於人類和計算機圍棋)中被簡單地評級為‘業餘7段’,據報道這是因為結合使用瞭神經網絡。darkfmcts3則獲得瞭實打實的‘業餘5段’評級,這在前幾個月的基礎上實現瞭2-3個段位的進步,其背後的研究人員還在論文中表示還有各種現成的方法可以對其進行改進。事實上,按田淵棟和朱巖在其最新的論文中的說法,在最新的KGS計算機圍棋賽中,如果不是因為出現瞭一個故障,他們本能夠擊敗Zen(相反Hassabis說darkfmcts3輸給瞭Zen——他可能沒有看相關的註腳!)。總結來說,計算機圍棋在AlphaGo之前就已經通過與深度學習的結合實現瞭很多進步,這能稍微減少上面圖表中的差距(這份圖表可能是幾個月前的),但並不能完全消除。

現在,回到硬件的問題上。DeepMind的David Silver和 Aja Huang等人對AlphaGo的許多變體版本進行瞭評估,並總結成瞭上面圖表中的AlphaGo和分佈式AlphaGo。但這沒有給出由硬件差異所帶來的變體版本的全貌,而你可以在下圖(同樣來自於那篇論文)中看到這個全貌。

02這張圖表給出瞭不同AlphaGo變體版本所估測的Elo評級。其中11條淡藍色數據來自‘單臺機器’變體,而藍黑色數據則來自涉及多臺機器的分佈式AlphaGo。但這個機器到底是什麼呢?圖中的線程(Threads)表示瞭所使用的搜索線程數,而通過查閱論文後面的內容,我們可以發現其中計算最不密集的AlphaGo版本(圖中最短數據條)使用瞭48個CPU和1個GPU。作為參考,Crazy Stone沒有使用任何GPU,使用的CPU也稍微少一點。在簡單搜索瞭不同的圍棋程序目前所使用的計算集群之後,我沒找到其它任何程序GPU的使用數量超過36個。Facebook的darkfmcts3是我所知唯一確定使用瞭GPU的版本,其最大的版本使用瞭64個GPU和8個CPU(也就是說相比於單臺機器版AlphaGo,GPU更多,CPU更少)。上圖中基於40個搜索線程、48個CPU、8個GPU變體的單臺機器版AlphaGo比前面提到的其它程序強大很多。但如果它是一個48個CPU、1個GPU版本,它可能隻會比Crazy Stone和Zen強一點——甚至可能不會比1月份剛改進過的最新Zen19X版本更強。

也許最好的比較是在同樣硬件水平上對比AlphaGo和darkfmcts3,但它們使用瞭不同的CPU/GPU配置,而darkfmcts3在AlphaGo的勝利之後也已下線。如果將Crazy Stone和Zen19X擴展到與分佈式AlphaGo同等的集群規模,進一步分析前面提到的硬件調整所帶來的性能提升,那也會很有意思。總之,並不清楚在同等硬件水平上AlphaGo相對於之前的圍棋程序有多少性能提升——也許有一些,但肯定沒有之前使用小集群的圍棋程序和使用大規模集群的AlphaGo之間的差距那樣大。這是我們下面要討論的。

分佈式AlphaGo最大的變體版本使用瞭280個GPU和1920個CPU。這樣巨大的硬件絕對數量所帶來的算力顯然遠遠超過之前任何被報道過的圍棋程序。這一計算集群大小值得註意的原因有兩個。第一,它讓人疑問AlphaGo所代表的硬件適應算法(hardware-adjusted algorithmic)的進展程度,以及相關的評估網絡的重要性。正如我在最新的AAAI工作室論文《人工智能建模的進展》提到的,如果我們應該追蹤人工智能領域內多個最先進的狀況而不是單個最先進的狀況,那麼將分佈式AlphaGo和Crazy Stone之類進行比較就是將兩個最先進的進行比較——即在考慮小規模算力(和小團隊)的性能和大規模算力(由十幾位世界上最優秀的人工智台中市抽水肥能研究者所帶來的)性能進行比較。

第二,值得註意的是,光是硬件改進這一方面就讓AlphaGo實現瞭非常大的棋力水平跨越(相對於人類而言)——從報道中最低的大約Elo評級2200分上漲到超過3000分,這是業餘水平和專業水平之間的差距。這可能表明(後面我還會回過來討論)在可能的技術水平區間中,人類水平隻能處在相對較小的區間內。如果這個項目在10或20年前已經開始,看起來很可能在相同算法的基礎上,僅靠硬件提升就能讓機器的棋力水平一步實現從業餘水平到超人水平(超過專業水平)的跨越。此外,10或20年前,即使采用相同的算法,因為硬件水平限制,也很可能沒辦法開發出超人水平的圍棋程序。盡管近年來神經網絡和MCTS等其它方面的進步也做出瞭很大貢獻,但也許隻有到現在,在硬件進步的基礎上,AlphaGo項目才有意義。

此外,同樣在《人工智能建模的進展》中也簡單討論過,我們還應該考慮人工智能的性能和評估進展速率時用於訓練的數據之間的關系。AlphaGo使用來自KGS服務器的大型遊戲數據集幫助實現瞭AlphaGo的能力——我還沒仔細看過過去其它相比的人工智能訓練所用的數據,但看起來可能也是這個數據集。在AAAI上Hassabis表示DeepMind打算嘗試完全使用自我對弈來訓練AlphaGo。這是個更加瞭不起的想法,但在那之前,我們可能沒法知道AlphaGo有多少性能來自於此數據庫,這個數據庫是DeepMind自己從KGS的服務器上收集的。

最後,除瞭調整硬件和數據,我們還應該調整如何評估一個人工智能裡程牌有多重要。以深藍(DeepBlue)為例,打敗Gary Kasparov的人工智能的開發中使用瞭明顯的相關領域專業知識,它並不是通過從頭開始學習而實現該領域內的通用智能。Hassabis在AAAI和其它地方說過AlphaGo比深藍更代表瞭通用型人工智能進步,而且這一技術也是為通用的目的使用的。然而,這個項目中評估網絡的進展與使用的具體訓練方案(監督學習和自我訓練的序列,而不是端到端學習)本身是由研究人員在領域內特有的專業知識所確定的,其中包括David Silver和Aja Huang,他們擁有大量關於計算機圍棋和圍棋方面的專業知識。盡管AlphaGo的棋力最終超過這些研究者,但其中的算法搜索都是之前由這些特定領域確定的(而且之前也提到過,部分算法——即MCTS組件——編碼瞭特定領域的知識)。另外,該團隊非常大,有15-20人,超過我所知的之前的任何圍棋引擎團隊,簡直能與深藍或沃森(Watson)這樣的大型項目相提並論,這在計算機圍棋史上也是絕無僅有的。所以,如果我們要合理預期一個由特定領域內最聰明的頂級專傢組成的團隊在推動某個問題的發展,那麼這個努力的規模表明我們應該稍微降低一點AlphaGo在我們印象中的裡程碑意義。相反,如果例如DeepMind這樣的項目隻是簡單地將現有的DQN算法應用到圍棋上就取得瞭同樣的成就,那就會具有更重大的意義。與此同時,由特定領域啟發的創新也可能具有廣泛的相關性,評估網絡可能就是這樣的案例。現在說還有些言之過早。

總之,雖然可能最後證明評估網絡確實是實現更通用和更強大人工智能系統的重大進展,但我們不能在不考慮硬件調整、數據和人員的基礎上就僅從AlphaGo的優秀表現上推導出這一結論。另外,不管我們認為算法創新是否尤其重要,我們都應該將這些結果理解為深度強化學習擴展應用到更大硬件組合和更多數據上的標志,也是之前大量人工智能專傢眼中解決困難問題的標志,這些社區公寓大廈抽肥標志本身就是我們將要瞭解的有關世界的重要事實。

AlphaGo 擊敗樊麾後,評論普遍認為這一突然的勝利與圍棋計算機預設程序相關。需特別指出的是,DeepMind內部人士表示原以為這要十年甚至更長時間才能實現。其中就包括CrazyStone設計者Remi Coulum,他在《連線》雜志一篇文章發表瞭類似觀點。我無意深入探討專傢對圍棋計算機未來的觀點,專傢們幾乎不可能對這一裡程碑意義達成共識。就在AlphaGo 此次勝利宣佈之前,我和其他一些人在推特和其他地方表示Coulum的悲觀看法並不成立。大概一年前,Alex Champandard在一次AI遊戲專傢的聚會上說在谷歌和其他公司的共同努力下,圍棋計算機程序將實現飛躍;在去年的AAAI大會上,我也咨詢瞭Michael Bowling(他對AI遊戲也略知一二,研究瞭一款基本上解決瞭德州撲克雙人限制的AI程序),問他認為多少年後,圍棋AI將超越人類,他回答說最多五年。所以,再次表明:這次勝利是否突然,在業內並未達成共識,那些聲稱該勝利意義深遠的觀點是基於不科學的專傢調查,存在爭議。

盡管如此,這一勝利也確實讓包括AI專傢在內的一些人感到意外,Remi Coulum這類人也不可能不知道圍棋 AI。 那麼,該勝利出乎專傢意料之外是否意味著AI本身實現瞭突破呢?答案是否定的,一直以來,專傢對AI未來的看法都是不可靠的。為此,我在《人工智能建模的進展》中調研瞭相關文獻,簡而言之,我們早就知道基於模型的預測優於直覺判斷,定量技術預測勝於定性技術預測,還有其他的因素使得我們並不該把某種所謂的直覺判斷(與正規模型及其推測相反)當真。從為數不多的真正實證性推測(計算圍棋達到人類水平的日期)來看,其預測並沒有很大的誤差。

Hiroshi Yamashita2011年起對圍棋計算機的發展趨勢進行預測,稱四年後將出現圍棋計算機超越人類的節點,現在看來,僅有一年的偏差。近年來,這一趨勢放緩(基於KGS最高排名),如果Yamashita和其他人重新預測,也許會調整計算方式,如推遲一年。但也就在AlphaGo取得勝利的前幾個星期,圍棋計算機取得瞭突破性進展。我沒有從各方面仔細看這些預測內容,但是我認為他們原本以為這個節點將在十年以後甚至更長時間才會出現,尤其是考慮到去年圍棋計算機的發展。也許AlphaGo的勝利比預計早瞭幾年,但我們也總是可以期待一些超越瞭(基於小團隊,有限計算資源的)一般趨勢的進步,因為有顯著的更多投入、數據量和大量計算資源被用來攻克這一問題。AlphaGo的發展是否偏離合理調整趨勢並不明顯,特別是因為如今人們並沒有在嚴格模擬這種趨勢方面投入太多工作。在不同領域中,鑒於工作、數據、硬件水平的不同,在有效的預測方法被采用之前,所謂的‘突破性’進步會看上去比實際上更讓人驚訝。

以上都表明我們至少應該對AlphaGo 的勝利略微淡定。雖談不上震驚,但我也認為這是個瞭不起的成就。更多地,這是我們在人工智能領域取得的成就的另一標志,也展現瞭人工智能中使用各種方法的能力。

神經網絡在AlphaGo 中起到瞭關鍵作用。將神經網絡運用在圍棋計算機上並不稀奇,因為神經網絡用途廣泛——原則上,神經網絡可實現任何可計算函數。但是在AlphaGo 的運用再次表明神經網絡不僅能夠學習一系列的事情,還能相對高效,即在和人類處理速度相似的時間范圍內、現有的硬件條件下完成一些原本需要大量人類智慧的任務。而且,它們不僅能完成諸如‘模式識別’這類普通(有時人類不屑)的任務,還能規劃高級策略,如在圍棋中勝出所需的謀略。神經網絡的可擴展性(不僅在於更大的數據量和計算性能,還在於不同的認知領域)不僅僅通過AlphaGo來展現出來,最近其它各類AI成果也有所體現。誠然,即使沒有蒙特卡洛樹搜索(MCTS),AlphaGo 也優於現存所有配備蒙特卡洛樹搜索的系統,這也是整件事最有趣的發現之一,而一些關於AlphaGo的勝利分析卻遺漏瞭它。AlphaGo 並不是唯一一個可展現神經網絡在‘認知’領域潛力的系統——近期一篇論文表明神經網絡也被用於其它計劃任務。

AlphaGo 能否自我訓練,其表現有多少可歸結於特定的訓練法?現在討論還為時過早。但是論文中對硬件規格的研究使我們有理由相信隻要有足夠的硬件和數據,人工智能就能極大地超越人類。這點,我們早已從ImageNet (譯者註:ImageNet 是一個計算機視覺系統識別項目, 是目前世界上圖像識別最大的數據庫)的視覺識別結果中得知,人工智能在某些評分、語音識別和其它一些結果已經超越瞭人類表現。但是AlphaGo 是一個重要的象征,表明‘人類水平’並非AI的終點,現有的AI技術仍有很大的提升空間,尤其是DeepMind和其他公司不斷擴大的技術研究團隊已經深深打上瞭‘深度強化學習(deep reinforcement learning)’的烙印。

同時,我也深入瞭解瞭Atari 人工智能的發展細節(也許就是今後博文的主題),我也得出瞭相似的結論:Atari AI與人類智力大體相當隻會維持非常短的一段時間,即2014-2015年。目前,遊戲中表現的中間值遠在人類能力的100%以上,而平均值則達到600%左右。人工智能僅在一小部分遊戲中未能達到人類水平,但是很快就會出現超人類的表現。

除瞭從AlphaGo的勝利得到經驗以外,還產生瞭一些其他的問題:例如:有哪些認知領域是無法通過海量計算機資源、數據和專傢努力取得實質性成就的呢?經濟中,關於什麼是簡單/困難的自動化的理論有很多,但是這些理論很少能越過人工智能所取得的成就這個表面問題,來探討我們如何以原則性的方式定義一般而言的簡單/困難認知這一更復雜的問題。另外,還有一個經驗主義問題,在哪些領域已存在(超越)人類級別性能的足夠數據/計算資源,或者說即將超越。比如,如果谷歌宣佈開發出瞭語言能力高度發達的計算機個人助手,其中部分訓練來自於谷歌海量數據和最新的深度(強化)學習技術,我們會感到驚訝嗎?這個問題很難回答。在我看來,此類問題,包括AI安全性,對AI在認知/經濟相關領域的發展提出瞭更嚴格的建模要求。

李世石之戰和其它未來發展

03本著基於模型的外推法勝於直覺判斷的精神,我制作瞭以上圖表,展現DeepMind尺度轉換研究中CPU和Elo得分的直觀聯系。我將每步時長延長為相當於5分鐘時間的計算,更接近於與李世石比賽的實際情況,而不是尺度轉換研究中的每步2秒。這就假定在技巧水平更高的情況下,硬件運算次數不變(可能與真實情況不符,但是正如技術預測文章中寫道的:初級模型也比沒有模型好)。該預測指出隻需提升硬件或延長AlphaGo的思考時間,AlphaGo有可能達到李世石的水平(如上圖所示,3500分左右)。然而,DeepMind 幾乎不可能寄希望於此——除瞭讓AlphaGo用比研究中更長的時間進行計算最佳落子外,DeepMind還會進行大量的算法提升。Hassabis 在美國人工智能協會(AAAI)中表示他們正以各種當方式改進AlphaGo 。確實如此,他們還聘用瞭樊麾來幫助他們進行改進。基於Hassabis自信表現(他可以接觸相關數據,如目前的AlphaGo 比去年10月的AlphaGo 提升瞭多少)等諸多考慮因素,都表明AlphaGo 有很大幾率擊敗李世石。若真成功瞭,我們應該進一步提升對深度強化學習可擴展性的信心,可能還包括評估或策略網絡(value/policy networks)。若失敗,則表明我們所認為的深度加強學習和硬件規模還沒有達到我們所認為的程度,尚無法觸及認知的某些方面。同樣,如果自我學習被證明足以使人工智能性能相當,抑或評估或策略網絡能夠在其他比賽中超越人類,我們同樣也應該增加現代人工智能技術擴展性和通用性的評價。

最後關於‘通用AI(general AI)’(譯者註:通用AI指具有對普遍問題的認知、解決能力的AI)。正如之前所提到的,Hassabis 更強調所謂的價值或策略網絡的通用性,而不是深藍(Deep Blue)的局限設計。然而事實更復雜,不能簡單地一分為二(要記得,AlphaGo 為蒙特卡洛樹搜索使用瞭某些手工開發的功能),仍然是以上所說的深度加強學習的通用性。自DeepMind 2013年發表關於Atari的重要論文以來,深度強化學習已經被廣泛應用於現實世界機器人和人機對話中以完成各類任務。考慮到在算法略微甚至無手工調試的情況下,深度強化學習已經在很多領域有瞭成功應用,有理由認為這些技術已經十分通用。然而,我們這裡所討論的所有案例,目前所取得的進步大部分局限於展示建立狹窄系統所需的通用方法,而不是建立通用系統所需的通用方法。前者的取得的進展並不是後者取得實質性進展的必要條件。而後者要求將機器學習遷移到至其它重要領域,也許尤其是經濟或安全相關的領域,而不是局限在Atari或AlphaGo這塊。這表明嚴格的AI建模發展中一個重要的因素可能是確定人工智能操作系統中不同等級的通用性(而不是產生它們的通用方法,盡管這點也很重要)。這也是我感興趣的地方,未來可能會在該領域入更多,我很好奇人們對於上述問題會怎麼想。

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片

arrow
arrow

    mbg945y8s4 發表在 痞客邦 留言(0) 人氣()