從AI看性格與命運 - 馮睎乾

從AI看性格與命運 - 馮睎乾

AlphaGo升級版Master,近日在網上跟人類圍棋高手對弈,連勝六十場,震動棋壇。有讀者想我寫寫這電腦棋靈王,但篇幅所限,實在有心無力,只能借題發揮地談談。AlphaGo和Master練的是兩大神功:一是深度學習,二是蒙地卡羅樹搜尋。它們提升棋力的方法是「左右互搏」,官方叫「強化學習」。今天只能淺談一下深度學習。
所謂深度學習,是機器以模擬人腦的方式(類神經網絡),根據訓練資料找出最佳函數──比如圍棋函數,是輸入當前的黑白子位置,經複雜運算,輸出下一步棋的位置。類神經網絡像人腦一樣,由神經元組成,其結構由人類決定,比如AlphaGo用的是跟辨識影像技術相同的「捲積式類神經網絡」。每個神經元是一個函數,你輸入一組數值,它們被相應的參數(權重和閾值)調整後,便會輸出一個數值──同樣的輸入,只要參數不同,輸出便有異──而這個輸出的數值,便成為下一個神經元的輸入數值,餘此類推。每排神經元稱為一層,最後一層稱為「輸出層」,它輸出的是整個網絡的數值,之前的叫「隱藏層」。深度學習的「深」,指有很多隱藏層。簡單而言,網絡越「深」,效能越大。
要找出最佳函數(即最佳的下一步),AlphaGo會用「梯度下降」,即隨機設定第一組參數,再把它微調為較佳的第二組,如是者不斷重複,直至找不到更佳的參數為止。由於過程涉及隨機,每次找到的函數很可能不同,所以機器輸出的未必是嚴格意義的「最佳」結果。這兒我聯想起人的性格與命運:輸入值就像人類所受的環境刺激,類神經網絡結構是人的性格或才能,隨機的初始參數是人的無明躁動,而輸出值就是行為。同樣處境,同樣性情,只要人心有不一樣的隨機衝動,反應便會大異其趣。所謂命運,是指由千萬個輸出反應交織出來的事件網絡,抑或指那些隨機參數呢?