網站「港人講地」上周五的評論文章《解開特首民望「不合格」之謎》指出,根據港大民意研究計劃(下稱「港大民研」)公佈的最新民調結果和原始資料,在998個被訪市民中,有615人給予特首梁振英50分或以上的支持度評分,即是有61.8%的被訪者給予合格分數。因此,港人講地提出質疑,既然有超過六成人評特首的表現有50分或以上,為何特首評分又會不合格呢?另外,港人講地認為港大民研計算特首的支持度平均分只得47.5分,這個不合格的評分是由於有91個被訪者給予0分的極端評分,因此將特首的平均評分拖低。
在港人講地發表這評論文章後,身兼行政會議成員及一國兩制研究中心總裁張志剛接受電子傳媒訪問,以港人講地一文的論點抨擊港大民研的調查準確性,他更形容在不少極端評分的影響下,用平均分來評核梁振英表現,猶如瞎子摸象。
筆者在電視的新聞環節和幾份本地報章也看到港人講地和張志剛的批評,認為他們的指控相當嚴重,給予市民的感覺是港大民研有意將特首的支持度平均分拉低,對一間已成立多年的大學民調機構而言,是極大的侮辱。
筆者從事計量經濟研究,對統計方法頗有認識。因此對港人講地和張志剛的評論特別關心。既然港大民研已將民調的原始數據公開,作為學者,筆者認為有責任去仔細分析這份數據,以解釋疑團。
經過基礎的數據分析,竟然發現港人講地和張志剛均犯上一個非常初級的統計錯誤。主要問題是兩者在處理「中間點」50分數據時,在分組(grouping)上出現錯誤。首先,讀者可以細閱以下港大民研被質疑的民調問題:「而家想請你用0-100分評價你對特首梁振英的支持度,0分代表絕對唔支持,100分代表絕對支持,50分代表一半半,你會畀幾多分梁振英呢?」
以上問題是聚焦於特首的支持度,量度分數是由最低的0分至最高的100分,即是總共有101個潛在得分(0,1,2,3,...98,99,100)。而50分剛好是中間點,但根據問題的措辭,50分只是代表「一半半」,沒有任何暗示這是一個合格的最低門檻。
關於港人講地和張志剛聲稱,有61.8%的被訪者評特首50分或以上。但經過筆者分析,這所謂61.8%的比例是來自將選擇50分的被訪者納入50分或以上的組別。但筆者可以告訴讀者,這分組步驟已犯上統計錯誤,因為這種方法可能會令到結果出現頗大偏差(Bias)。
以今次民調爭議為例,總評人數是998,包括383人評50分以下,280人評50分,和335人評50分以上。港人講地和張志剛將選擇評分的人分為兩組:0-49分和50-100分。但大家要留意0-49分只有50個選擇分數,而50-100分卻有51個選擇分數,這方法明顯給予50-100分的組別優勢了。但如果我們將分組改為0-50分和51-100分,這又會令0-50分的組別佔有優勢了。總言之,組別的處理方法是可以令到計算組別內的人數出現明顯分別,最終令結果出現偏差。
附表分別採用以上兩種方法去做分組。另外,筆者會使用一個常用的統計方法去處理這分組問題,從而得到一個較客觀和準確的答案。從附表中,讀者可以看到將評50分的人數納入其中一組會帶出截然不同的結論──將0-50分作為一組,即是將評50分的人數納入其中,結果將變為66.4%的被訪者評0-50分,與港人講地和張志剛的38.37%有明顯差距,這正好引證偏差對整個民調的影響。
在統計學上,要妥善解決以上的偏差問題非常簡單。只要將一半評50分的人數放至0-50分組別,而另外一半的人數放在50-100分組別。這方法主要是平衡兩個組別的人數,以免出現過份偏差的情況(讀者可以參考Thomas Wonnacott和Ronald Wonnacott的"Introductory Statistics For Business and Economics" (Fourth Edition)第二章腳註一)。如果利用這個「平均分配」的方法去處理分組,最終的答案仍是50分或以下的組別佔過半的百分比(52.4%),反映特首的支持度評分不是太理想。
至於特首的平均分被拖低的問題,筆者同意港人講地和張志剛的論點,但我們分析的角度是有分別。他們認為太多人給予極端評分令到平均分下降是主因。從數學推論,這點是正確。但如果港大民研採用的民調方法是符合統計標準,這些極端評分也是反映香港人的民意。想想如果反對派投訴有太多人給予極高評分於特首,拉高了平均分,我們是否認為極高評分也是極端評分呢?對民意分析員來說,極高和極低的評分也是重要的統計資料。
但一旦出現很多人選擇極高或極低評分,以平均分來分析民意的變化的確不是一個最好的指標。原因是評分分佈不是一個正態分佈(Normal Distribution)。因此,更好的「中間位指標」可以考慮採用中位數(Median)或眾數(Mode)等統計指標,筆者提議港大民研在發佈民調結果時可以同時公佈中位數和眾數,務求令公眾有更多資料以了解特首的支持度。以這次民調的數據為例,中位數和眾數均是50分,較平均分47.5分只高了2.5分。
另一個處理方法是剔除極高或低評分部份,從而計算「截尾均值」(Trimmed mean)。筆者(關焯照)在中大任教時,也曾負責老師的課程評價(course evaluation)。在報告老師的課程評價時,筆者會同時公佈兩組結果:用所有學生的評分計算平均分和剔除極端評分後的截尾均值,老師可以參考兩組結果從而改善教學技巧。
民調是一個非常有用的統計學方法了解公眾的觀感(gauge public perception),但一旦在計算上出現如港人講地和張志剛等犯上的初級統計錯誤,便很容易得到錯誤的結論,大家應該引以為誡。
關焯照
經濟學家
冠域商業及經濟研究中心主任
周文林
經濟學家
冠域商業及經濟研究中心高級研究員
雷照盛
統計學家、港大統計及精算學系講師冠域商業及經濟研究中心研究員