What we are reading:引爆大數據 - 余大千

What we are reading:引爆大數據 - 余大千

忽然之間,Big Data成為像3D打印般的企管潮語,各行各業都彷彿可以跟大數據扯上關係,連最近鬧得滿城風雨的叛諜斯諾登事件,也與大數據沾上邊。想了解大數據的著作,我認為最平易近人的,當數牛津大學教授Viktor Mayer-Schonberger及《經濟學人》編輯Kenneth Cukier合著的《Big data: a revolution that will transform how we live, work and think》。
智能電話、雲端服務與互聯網的結合,引發數據的爆炸性增長,現時Google每天要處理的數據,是美國國家圖書館所有出版物數據量的1,000倍;facebook每天更新的照片數目,超過1,000萬張,like及評論的數目有30億;twitter去年每天發佈的短訊,也超過4億條。
如何從這些龐大而分佈四散的數據中,發掘有用的資訊,是大數據之所以引人入勝的原因。本書作出種種大膽的趨勢預測,雖然聽起來有點譁眾,但確實激發思考。
作者認為,大數據的出現,會令抽樣調查的作用式微,當你可以取得所有樣本的數據時,還需要抽樣嗎?正如當政府可以很便宜及快捷地進行人口普查,那還需要做規模小得多、而且包含統計錯誤的抽查?
同時,大數據之下,資訊收集的準確性要求可以降低,當你只擁有小量數據時,數據的準確性會對結論有很大影響,但當你手持大數據時,即使降低精確性要求,也可以有很好的結果。好像Google的繙譯功能,是讓電腦系統硬啃聯合國及歐洲委員會等國際組織發佈的官方文件和報告譯本,這些不少是繙譯質量參差不齊的文件,部份內容甚至不完整、拼錯字的,但因為數量高達數十億頁,量大蓋過了這些瑕疵,令它的繙譯質素,相較其他繙譯系統毫不遜色。

公眾私隱恐大量發掘

其三,大數據可以得出大量資料的相關性關係,這些關係可能難以辯證因果,但仍然具商業價值。美國最大零售商沃爾瑪,曾對其數據庫進行仔細分析,發現每當有颶風來臨前,手電筒銷量會增加,同時間美式蛋撻也會好賣起來,沃爾瑪於是在打風前將兩件產品放在當眼處,催谷銷量。另一個例子,是橙色的二手車,質量出問題的可能性,只有其他車的一半。這些例子都未必找到原因,但仍可發掘商機。換句話說,大數據會告訴你"what",但不是"why"。
作者認為,大數據遲早會成為一項資產,需要列在年報的資產負債表上,而具備大數據概念的企業其實不少,如坐擁大數據庫的Google、Amazon、蘋果、facebook、Visa、MasterCard,甚至內地的阿里巴巴等,又如提供大數據方案的IBM、惠普等,也可受惠其中。
不過,由最近的斯諾登事件可見,大數據也會帶來私隱的問題。作者在書中亦明言,在現有技術下,匿名資料絕不保障私隱,因為只要綜合對照幾個數據庫,便幾乎可以百分百鎖定個人身份。同時,公眾的私隱被不知不覺地搜集及大量發掘,甚至出現二手買賣的市場,但個人卻往往無法直接得益,極端點,甚至可能出現電影《未來報告》的劇情,市民被大數據分析定義為潛在罪犯,未犯先拉。
對陌生的新事物,我們總會有點手足無措,尤其是面對科幻電影情節成真的時候。

余大千

有料放?想收料?入嚟【蘋果互動】啦!
【蘋果互動】是蘋果日報與讀者緊密互動、放料及收料的聚腳地。
http://fb.com/AppleDailyExchange