網上數據易被污染暗藏風險

大公報 A20：國際 2024-06-03

　　【大公報訊】互聯網上數據（或語料）如汪洋大海，每天都在產生海量數據，但實際上良莠不齊，並非所有數據都能用於訓練AI。因此，AI模型的核心競爭是優質數據的競爭，其數量更是限制AI模型進一步發展的關鍵。無法獲得高質量數據的公司，其訓練出來的AI模型，與其他公司的差距也會越來越大。隨着聊天機器人越來越常見，由AI生成的數據，反過來逐步「污染」互聯網，如果這些數據在沒有識別的情況下，又被搜集用來訓練AI，就會變成AI模型的風險來源。

　　網上數據不可靠，可能還有一個原因──創作者向抓取數據的AI公司發起挑戰。據報道，一種名為Nightshade（夜影）的新開源工具，或可被用於反擊互聯網上盜用圖片作品訓練AI的行為。Nightshade由美國芝加哥大學研究人員開發，通過在圖片中加入了肉眼無法識別的像素，以混淆、欺騙並誤導AI模型，擾亂其訓練，實現所謂的「數據投毒」。例如，輸入帽子的圖像最後出現蛋糕，輸入手袋的圖像最後生成烤麵包機。AI學習的文本數量越大，其「中毒」情況就會越深，而且中毒的數據很難刪除，需要科技公司在海量數據中找到並刪除每個損壞的樣本。研究人員希望這個工具有助於藝術創作者維權，但警告該工具可能會被用於惡意目的。

　　（綜合報道）

讀大公報PDF版面

網上數據易被污染 暗藏風險

網上數據易被污染暗藏風險