「打」假統計學助癌病研究─訪中大理學院副院長潘偉賢教授


  圖:潘偉賢推出的一套統計新法可運用於醫學上,對癌病的研究和判斷甚有幫助\本報攝

  □企業不時透過問卷去了解市場訊息、客戶意欲。偶然遇上客戶故弄玄虛,明明愛買卻偏說不可能買,想藉此干擾結果甚至提高議價力;因為滲入了錯誤數據使分類降效,令問卷分析結果的可信度大打折扣。不過,這逃不過中文大學統計學教授、理學院副院長潘偉賢的法眼,這位結構方程模型專家,推出一套方法可以使含有錯誤分類資料的數據,照樣可以尋覓到一個較準確的結果。這套統計方法可運用於醫學方面如對癌病的研究。

  策劃、審訂:曹宏威教授

  採訪、撰文:呂少群  

  統計學是一門用來搜集、分析、演繹以至呈現資料並預測走勢的數理科學,用途廣泛,涉及自然科學以至社會科學等領域;例如氣候變化、民意走向以至股市行情皆可使用。現今政府部門和工商機構亦多引用、務求業務精益求精。但怎樣解讀、分析數據以至迎刃解題,大有學問。

  社會研究多是無形概念

  在中大本科主修數學及統計學碩士,進而在美國洛杉磯加州大學取得生物統計學博士學位的潘偉賢介紹說,統計分析依靠數據。數據是通過量度「變量」(variable)而取得。所謂變量,一般都是我們有興趣研究的對象,例如溫度、體重、降雨量,都有簡明而一致的量度方法,是具體而實在的。不過,社會科學的研究對象卻往往涉及無形的概念。例如探求學生的天分、語言能力,甚至家庭的社經地位等因素會不會影響學生的自信心,削弱他們對未來的抱負,以至不敢期望讀書可改變命運(滿足於「前程似咁」)。那麼,開宗明義得先要問問這些因素怎去量度?

  潘教授表示,天分、能力、地位、自信心、抱負這些我們常見的用語,既是抽象而無形的概念,亦不能直接量度。在統計學上,它們被稱為「潛變量」(latent variable),並常會利用一系列「可量度」或「可觀測的變量」(observable variable)來幫助量化後進行研究。例如用「父母的教育程度」來量化「社經地位」這個潛變量,從而得以科學化地研究社經地位的影響,這可令社工有迹可循,幫助了解及跟進學生問題。

  談到她主力研究的「結構方程模型」(structural equation model),潘教授解釋,這是一種能系統地建立及分析量化過程,以及各種潛變量之間關係的統計方法。結構方程模型較多應用於教育學和心理學,近年亦流行用於商業研究上。例如管理學常以自己對自己和下屬對自己的評核來量化「工作表現評估」(performance appraisal)這個潛變量。她近年與商學院同事合作,針對一個來自商業銀行數據的特點,發展出一套建基於結構方程模型的方法,研究自己對自己和下屬對自己的評核兩者間的關係。在財務分析上,她們利用結構方程模型統計法,開拓軟件程式來探究影響恒生指數成份股回報的潛在因素。

  潘教授說,許多社會科學研究也會用問卷收集意見,如請受訪者針對某些政策,用「非常不同意」到「非常同意」等數個「等級範疇」來評分(rating)。她其中一系列的研究,就是將等級範疇類型數據(ordinal categorical data)的統計分析方法發展出來,並配合結構方程模型來量化並分析各種潛變量。

  梳理澄清得出可靠結果

  搜集數據不容易,有效處理以至分析則需要更多學問。潘教授指出,無論排序(ranking)、評分(rating)以至分類(classification)等數據搜集法皆有其長處或缺陷,而數據中亦往往包含錯誤訊息。她近年的研究就集中於發展統計模型和方法來處理包含「有錯誤分類資料的數據」(data with misclassification)。例如揪出在問卷調查中某些口非心是的客戶訊息,予以梳理澄清;繼而得出可靠的結果。她表示,這類型統計方法,醫學上亦可廣泛應用。例如對癌病的研究和判斷,通常要利用連串化驗甚至手術檢測才可得出精確數據,除了費用高昂更折騰病人。若利用基本症狀或簡單化驗結果,再用此統計方法梳理錯誤資料,可望較快捷及便宜地得出可靠結果。

  總的來說,教授這套「打」假統計學,已在醫、社、商等業務上、舒展了拳腳,理科不在話下;讓我們猜猜,文化中國會否也獲益呢?