科技界研多種方法訓練AI並保護私隱

  香港文匯報訊 人工智能(AI)技術發展,需要使用大量資料補充大型語言模型(LLM)數據庫,發展AI技術與保護個人私隱維持平衡,成為科技業界一大挑戰。《福布斯》雜誌引述美國科企YData創辦人、AI技術專家克萊門特分析稱,研發團隊補充LLM數據庫時,可使用自動化個人資料識別技術、差分私隱和合成資料等方法,作為抹除數據中的個人資料、保護個人私隱的方法。

  使用合成資料

  克萊門特指出,自動化個人資料識別技術是利用特定演算法,篩選除收集的數據中所有個人資料,自動將當中的敏感資訊和數據匿名化,再輸入數據庫中。完善的自動化技術可以快速篩選數據、節約成本,提升利用大型數據庫訓練AI系統的效率,也可以最大限度避免對個人資料處理不當可能帶來的後果。

  差分私隱則是一種共享數據方式,在處理數據時,差分私隱方法會利用演算法,為所有數據添加一組隨機代碼,令系統無法準確識別特定對象的個人數據,但不會影響對目標群體的統計學分析。將差分私隱方法應用到訓練AI模型的資料中,可以保證AI模型的整體訓練效果,同時降低特定對象的資料被識別利用的風險。

  克萊門特還提到,另一種訓練AI模型的方法是利用合成資料,這些看似關乎「真實人物」、包括詳細地址和電話等信息的資料,實則是完全用自動化演算法創建的假資料,不包含任何真實的個人資料和私隱。使用合成資料訓練AI系統,不會直接接觸用戶的真實數據,可以滿足多地個人資料保護法的要求。加上這些資料屬於人工產物,即使發生意外事故,這些假數據外洩也不會影響用戶的安全。