科技界研多種方法訓練AI並保護私隱

香港文匯報國際 2024-06-12

　　香港文匯報訊人工智能（AI）技術發展，需要使用大量資料補充大型語言模型（LLM）數據庫，發展AI技術與保護個人私隱維持平衡，成為科技業界一大挑戰。《福布斯》雜誌引述美國科企YData創辦人、AI技術專家克萊門特分析稱，研發團隊補充LLM數據庫時，可使用自動化個人資料識別技術、差分私隱和合成資料等方法，作為抹除數據中的個人資料、保護個人私隱的方法。

　　使用合成資料

　　克萊門特指出，自動化個人資料識別技術是利用特定演算法，篩選除收集的數據中所有個人資料，自動將當中的敏感資訊和數據匿名化，再輸入數據庫中。完善的自動化技術可以快速篩選數據、節約成本，提升利用大型數據庫訓練AI系統的效率，也可以最大限度避免對個人資料處理不當可能帶來的後果。

　　差分私隱則是一種共享數據方式，在處理數據時，差分私隱方法會利用演算法，為所有數據添加一組隨機代碼，令系統無法準確識別特定對象的個人數據，但不會影響對目標群體的統計學分析。將差分私隱方法應用到訓練AI模型的資料中，可以保證AI模型的整體訓練效果，同時降低特定對象的資料被識別利用的風險。

　　克萊門特還提到，另一種訓練AI模型的方法是利用合成資料，這些看似關乎「真實人物」、包括詳細地址和電話等信息的資料，實則是完全用自動化演算法創建的假資料，不包含任何真實的個人資料和私隱。使用合成資料訓練AI系統，不會直接接觸用戶的真實數據，可以滿足多地個人資料保護法的要求。加上這些資料屬於人工產物，即使發生意外事故，這些假數據外洩也不會影響用戶的安全。

讀香港文匯報PDF版面