人類知識多餘?Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
AlphaGo Zero3天時間就能達到擊敗李世石的AlphaGo Lee的水平,21天可以達到瞭之前擊敗柯潔的AlphaGo Master的水平。
今天凌晨,谷歌旗下Deepmind人工智能團隊發佈瞭一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下,直接通過自我純強化學習,於短短的3天自我訓練時間後,以100:0的戰績擊敗曾經的AlphaGo。
學霸中的戰鬥機,大表哥AlphaGo Zero完全靠 悟性 登上圍棋巔峰
在下面的視頻中,DeepMind研究人員簡單的介紹瞭新一代的AlphaGo Zero的基本原理,
DeepMind聯合創始人兼CEO Demis Hassabis表示: AlphaGo Zero是我們項目中最強大的版本,它展示瞭我們在更少的計算能力,而且完全不使用人類數據的情況下可以取得如此大的進展。
舉個簡單的例子,AlphaGo是經過大量的人工對弈數據學習和訓練才一點點登上圍棋的巔峰,它之所以能在去年打敗李世石,並且在今年以Master的身份戰勝排名世界第一的柯潔,都依賴於海量的人類對弈數據。
但是它的大表哥AlphaGo Zero是從一個完全不懂圍棋知識和規則的神經網絡開始,AlphaGo Zero每天就默默的自己一個人玩,不會像我們一樣整天突擊學習各種歷史棋譜,參考前輩們的經驗知識,它完全依靠自己的悟性(自我強化學習),在這個過程中,神經網絡會不斷更新、調整,來預測落子的位置,發展新的策略。
值得註意的是,AlphaGo Zero的自我訓練強化時間更短,AlphaGo Zero隻需要在4個TPU上花三天時間,自己左右互搏490萬棋局。而它的大表弟AlphaGo需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才能打敗人類。對於AlphaGo Zero來說,3天時間就能達到瞭擊敗李世石的AlphaGo Lee的水平,21天可以達到瞭之前擊敗柯潔的AlphaGo Master的水平。
AlphaGo Zero給我們的啟發
Deepmind的論文中也公佈瞭AlphaGo Zero的一些技術細節,現在也有不少文章分享瞭相關的技術原理,鎂客君簡單的整理一下,其實主要在於AlphaGo Zero有更深的網絡能更有效地直接從棋盤上提取特征。
AlphaGo Zero在自我對弈中,在每一個落點s,神經網絡f 都會進行蒙特卡洛樹(MCTS)搜索,得出每一步落子的概率 ,再根據遊戲規則計算出最終的獲勝者z,這一過程可被視為一個強有力的評估策略操作。在這其中,神經網絡參數不斷更新,落子概率和價值 (p,v)= f (s)也越來越接近改善後的搜索概率和自我對弈勝者 ( , z),而新的參數也會被用於下一次的自我對弈來以增強搜索的結果。
更多的技術原理可以參考下面的論文:
https://deepmind.com/documents/119/agz_unformatted_nature.pdf
其實AlphaGo Zero之所以會一石激起千層浪,很大原因在於這種自我強化訓練,不需要過多人工標註樣本的自我強化訓練未來可能的應用前景。
想象一下,以後可能再也不用花費大量的時間去為人工智能的應用或者產品做海量的數據準備工作,更何況很多情況下,數據的獲取難度也非常之大。
尤其是很多小樣本應用領域內,大量的人工標註幾乎不可能實現,比如醫療數據方面,考慮到數據隱私性,以及各個醫院之間的互通性,這些都讓海量數據獲取和訓練難上加難。
而Demis Hassabis認為AlphaGo Zero的意義在於, 我們希望利用這樣的算法突破來幫助解決現實世界的各種緊迫問題,例如蛋白質折疊或新材料設計。如果我們能在這些問題上取得與AlphaGo同樣的進展,就有可能冷凍食品機械推動人類理解,並對我們的生活產生積極影響。
AlphaGo Zero的技術理論是美好的,但是我們也需要思考的是,這種僅僅依靠神經網絡算法來解決實際問題,其實際應用的范圍到底有多大以及效果如何?
人工智能專傢、美國北卡羅萊納大學夏洛特分校洪韜教授表示,早期人工智能火瞭之後,被神經網絡 解決 的實際問題寥寥無幾;美國密歇根大學人工智能實驗室主任Satinder Singh也表示,人工智能和人甚至動物相比,所知所能依然極端有限。
回顧AlphaGo成名史,聊聊AlphaGo Zero的下一步
出生於2014年的AlphaGo,2015年就擊敗瞭樊麾,成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業棋手的電腦圍棋程序。到瞭2016年3月,AlphaGo在和李世石的對戰中一舉成名,4:1的勝績讓它成為有史以來第一位非人類的名譽職業九段;之後升級版AlphaGo以 Master 的稱號,挑戰瞭中韓日臺的一流高手,最終60戰全勝;2017年,AlphaGo在浙江烏鎮,和我國圍棋選手柯潔進行對戰,最終以打敗柯潔成為世界第一正式退役謝幕。
那麼對於AlphaGo Zero,大傢也非常期待它會以什麼樣的身份正式亮相,鎂客君覺得可能會是這樣的情景:
今年8月的時候,DeepMind 曾公開宣佈,星際爭霸 2 將會是其下一個目標。自學能力如此強的AlphaGo Zero極有可能會在星際爭霸AI中亮相。
和圍棋對弈相比,星際爭霸 AI 也是基於開發者人工編寫的規則和策略,此前的對戰中,AI會觀看海量的比賽數據,然後嘗試各種不同的策略,在反復的訓練和學習後,從其中選出最有可能獲勝的一種。可以想象,按照AlphaGo Zero的自我強化學習能力,它完全能夠在自我博弈過程中去尋找到最佳的策略。
最後,在看到柯潔發的這條微博動態後,
一聲唏噓,在這樣的人工智能面前,人類的學習經驗價值似乎越來越低,人類會太多餘嗎
最後,記得關註微信公眾號:鎂客網(im2maker),更多幹貨在等你!
鎂客網
科技 | 人文 | 行業
微信ID:im2maker長按識別二維碼關註
硬科技第一產業媒體
提供最有價值的行業觀察
人工智能
機器學習
Deepmind
直角停車不是夢,東京車展出現搭載AI技術的球形輪胎
這款輪胎使無人駕駛汽車不僅在軟件系統方面做到智能自動填充機化,也在輪胎等硬件設備上也做到智能化。
做芯片的不如做項鏈的?國內高端IC芯片破局已刻不容緩|專訪中科大副院長、浙大教授
這裡有一個顯而易見的惡性循環:因為工藝落後——客戶到國外流片——國內工藝缺乏流片驗證提升——工藝更加落後。
鎂客網是一個以原創內容、高品質活動為核心的線上線下互動的科技媒體,我們關註新興創新的硬科技領域,提供有價值的報道和服食品機械務,連接硬科技創業者和各種渠道資源,助力硬科技產業化。
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表