AI發展面面觀3 道德法律篇/科技衍生網絡安全挑戰 完善AI法律監管 保護私隱防詐騙

  圖:個人資料私隱專員鍾麗玲以自己人像為基礎,示範製作深度偽造影片。
  圖:個人資料私隱專員鍾麗玲以自己人像為基礎,示範製作深度偽造影片。

  人工智能(AI)作為一項新技術,發展一日千里,也衍生出AI幻覺、AI偏見、AI詐騙等新問題,去年AI安全被納入我國國家安全的20項重點領域,說明AI帶來的安全問題值得社會高度重視。

  因此,完善AI識別、AI犯罪偵查、AI法律等監管配套措施,對於AI世代下的人們顯得尤為必要,這些配套措施就像是一張盾牌,不斷迎接AI技術這樣的雙刃劍的挑戰。\大公報記者 吳東風、趙之齊

  「香港的私隱公署專員是誰?」

  「截至2021年,香港的私隱專員是陳茂波先生(Stephen Kai-yi Wong)。」(見右圖)

  以上這段啼笑皆非的對話,來自大公報記者問ChatGPT的聊天紀錄。明明是錯得離譜的答案,ChatGPT都可以信誓旦旦地回覆你。事實上,自ChatGPT誕生後,這種情況並不少見。在人工智能領域中,這樣的回應被稱之為幻覺(英語:hallucination,或稱人工幻覺),它含有貌似事實的虛假或誤導性資訊。

  超出數據庫範圍會誤判

  「現在的生成式AI,像ChatGPT,如果你問的問題超出它知道的範圍,它不會直接告訴你它答不了,而是會自己生成一個新的答案,這就有潛在的風險了。」個人資料私隱專員鍾麗玲舉例,如果有AI模型是用來看醫學影像的,例如X光片、電腦掃描的片,去識別究竟有否癌細胞;那麼就視乎這個AI數據庫裏有沒有相關的資料了。假如它主要是拿病患的資料,去檢查一個健康人的時候,它就會誤判,就會帶來很大的風險。

  鍾麗玲表示,這種被稱為「AI幻覺」的現象,往往是因為用家問AI系統的問題,超出了AI系統數據庫的範圍。

  其次,AI幻覺的產生,也跟對話長度有關。鍾麗玲提到,生成式AI目前在記憶方面仍有限制,如果用家在跟AI對話時已出現AI幻覺的情況下,延長對話長度或會令生成式AI將幻覺繼續放大,即將錯誤繼續放大。「之前就有用家試過讓AI作一篇長文,結果前言不對後語,說明如果對話太長,AI可能不會記得之前自己講了什麼。」

  還有一點,鍾麗玲表示,生成式AI的數據庫也需要更新,即它的數據庫現時未必去到最新的情況,這也容易提供錯誤的答案。回到文章一開頭私隱公署專員的問答,鍾麗玲相信,亦包含了這種情況。

  如果要減少AI幻覺的產生,生成式AI就亟需在數據庫方面進行完善。鍾麗玲認為,首先收集數據的時候要盡量全面,以及盡量看看有無一些不準確的數據,然後去過濾這些數據;其次,生成式AI系統的開發商,需要將生成式的內容同現實中的數據進行比較,去測試這個AI系統的準確性、完整性;最後,鍾麗玲亦建議一些開發商在定製AI模型時,應盡量提供一些專門領域的專業數據,以提升數據庫的質素,例如在分析信貸審批領域,生成式AI就需要用到金融數據市場的數據等。

  人臉識別算法存在偏見

  另外,生成式AI數據庫的準確性和完整性亦需要完善。如果數據庫不準確、不完整,不單有機會引發AI幻覺,亦有機會產生AI偏見。據美國國家標準和技術研究所的一份報告顯示,研究人員調查了189種人臉識別算法(已經涵蓋該行業中的大多數),並發現,大多數人臉識別算法都含有偏見。研究人員指,算法對黑人和亞洲人臉的錯誤識別率是針對白人面孔的10至100倍。對女性的錯誤識別多過男性,導致黑人婦女很容易受到算法偏見的影響。

  至於人們應如何識別AI幻覺,鍾麗玲表示,私隱公署在去年推出「使用AI聊天機械人自保『十招』」的單張,今年亦發布《AI:個人資料保障模範框架》(《框架》),從市民角度、採購公司角度提醒如何正確使用和選用AI。另外,她指歐盟於去年12月推出的人工智慧規範法案(AI Act),提到對於AI生成的產品,要進行特別標籤、加水印提醒是AI生成,而私隱公署亦在今次的《框架》中提出此建議。