圍繞7.1遊行人數的爭議,想不到拗了十年,大家依然興致不減,在6.6萬與43萬之間玩思想拔河,各路人馬或認真或動氣地自說自話。成件事給我的感覺,就是平民百姓與統計學的距離,再沒有比此時更接近。
我不期然想起美國經濟學教授及前《經濟學人》記者Charles Wheelan去年出版的統計學入屋之作《Naked Statistics》。
統計學雖然已被廣泛應用於各行各業,但正如本欄介紹過的暢銷書《Thinking Fast and Slow》所指,人的直覺思維System 1,並不擅長以或然率來思考,故此往往衍生出不少統計錯覺,而群眾的智慧本來有助修正這些偏差,譬如市場的集體行為,便往往能有效率地賦予貨品合理的估價,不過這很視乎個體作判斷時,是否單獨進行,不受他人影響,否則在羊群心理下,群眾智慧很易會變成群眾愚昧。
一個群眾運動的參與人數,由於有政治含義,往往會把科學排擠在外,令真相永遠越說越亂,埋沒在情緒之中。
坊間統計多謬誤
剛剛發生軍事政變的埃及,在今年7.1前一天,也爆發大型示威,網上廣泛流傳指CNN及BBC報道,出席人數是3,300萬人,被譽為人類史上最大的示威運動。
埃及人口約8,500萬,3,300萬意味四成人口上街 (如果香港出現這情況,即要有270萬人上街),如果示威人士都是在城市集會,有沒有足夠的交通支援,當地的公廁、食肆能否承受?就算當這些都不是限制,3,300萬的數字又可以如何統計出來?我找遍兩個新聞網站,都再找不到有關這統計的新聞源頭。
Wheelan善於用例子來闡釋統計學的概念,及拆解坊間的統計錯謬,他會用一輛裝滿馬拉松選手的巴士,來講解隨機抽樣的核心理論Central Limit Theorem,書內亦提到為何一般平價商品沒有保險承保,為何買彩票是變窮的捷徑。
書中有不少章節,用來描寫醫學研究的統計被誤用,例如關於一隻新藥有效的論文往往得到出版及報道的機會,但那些指同一隻新藥無效的論文卻沒有見光之日,於是新藥的療效往往會被高估。
又如飲食習慣與患癌機會的研究,也往往混淆了因果關係與相關性,又或者研究結果,其實只是反映患癌如何扭曲病人對過去飲食習慣的回憶。
作者苦口婆心,其實只是希望大家採納統計時,要像食香腸一樣,盡量了解其製造過程及成份,要知所揀擇。
說回遊行人數,如果大家都重視這個數字的話,以現今的資訊科技及大數據處理能力,照道理應該有大把方法得出準確統計,如設計一個遊行簽到app,又或者搜集地鐵客量、八達通登錄的數據、電訊商基站錄得的資料交互對照,再Low-tech一點,在多個地點拍攝全個遊行片段上網,然後如維基百科般,組織一批網民分段目測數人。
當然,在對立的政治形勢之下,不方便的真相是不受歡迎的。
余大千