為進行今次大選分析,需蒐集過去多年大選投票日,然後按此日期找出涉及的股市表現,再將不同投票日前後的股指回報綜合起來分析。間或有讀者會問我,這些用Excel等試算表工具都可以做到,有必要學Python編程嗎?
以今次涉及的數據為例,我下載了1987年至今的恒指、標指及美股VIX價格及交投數據,涉及共兩萬多個交易日的資料紀錄,然後再計算每日回報,及抽取特定時段作比較,程式運行起來相當暢順,即使把結果以圖表形式表達,亦絲毫不見呆滯;想像一下在試算表上運行一個相近規模或更大的數據集,單在數據表中穿梭遊走的經驗已極考耐性。
近日英國政府爆出因為使用試算表導致一度丟失萬六宗肺炎確診病例,更加強我這看法。原來英國政府不少電腦,仍在使用舊版Excel,所以每張工作表有65,536行的最高限制,超過這個行數的數據將被忽略不計;正是這個錯誤,令政府連續兩日報細數仍懵然不知,平白延誤了追蹤及遏制疫情的時機。
試算表災難絕非單一事件,甚至影響到學術研究。去年便有27種人類基因需要重新命名,因為當中不少名稱如MARCH1被Excel自動當成日期,引發不少錯誤結果;更有人專門設立網站,收集種種試算表「事故」,如上市公司業績及政府財政預算案出錯等。
要避免關公災難,還是快點學編程吧。