【智為未來】AI有助保育瀕臨滅絕語言

你知道世界上存在多少種語言嗎?答案是有7,000多種。當中約有3,000多種語言被歸類為瀕危語言,例如圖瓦語、仡佬語、澳門土生葡語等等。
根據聯合國教科文組織發布的世界瀕危語言地圖冊,瀕危性可分為六個等級,包括:無危、脆弱、危險、重大危險、極度危險和滅絕,而劃分的方式則是語言的使用者仍否把該語言作為主要的交流方式。
語言是人與人之間溝通的橋樑,亦是文化的載體,象徵着獨特的歷史和傳統價值。但由於現代化與全球通信的興起等語言的外部因素,使少數語言在社會、經濟、教育和文化價值觀等方面皆面臨着來自主要語言的競爭,導致少數語言的式微和消失。
更少的語言雖然可以令人的交流更加方便,但是一門語言的消失亦代表失去研究相關人類歷史的重要途徑,這一過程亦具有不可逆性。
在語言保育方面,人工智能(AI)亦可利用自然語言處理和大型語言模型等技術幫助保存和振興語言,冰島語就是一個實例。由於科技和旅遊產業的發展以及與其他歐美國家的文化融合,引起冰島政府擔憂冰島語在數個世代後可能會被取替。
在私營企業的協調下,冰島計劃團隊與OpenAI公司合作,將大型語言模型GPT-4用於冰島語的保護工作上。雖然GPT-4利用了網上的大量文本資料進行訓練,但是由於大多數文本資料的語言為英文,因此模型未能於冰島語的翻譯中取得好的表現。
該團隊利用人類反饋的強化學習(Reinforcement learning from human feedback),透過測試人員在GPT-4與冰島語相關的任務上給予的四個回答進行評分,以排列回答的優次,進一步訓練GPT-4,改善GPT-4在冰島語上的翻譯、語法錯誤,以及一些有關冰島的錯誤知識。此舉有助冰島語在現時或未來的時代中得到良好保存。
缺少語音文字紀錄 訓練數據難收集
雖然AI在語言保育中可提供幫助,但仍然存有不少難題。有些語言並沒有文字紀錄,都是依賴人們口耳相傳,導致缺乏完整的文本檔案;而且,在許多情況下,能流利使用瀕危語言的多為老一輩,年輕一代不會說這種語言,導致聲音數據無法得到妥善的收集。這些難題亦會使AI模型無法得到大量高質量的數據作訓練,導致在翻譯與提供語言學習中難以取得有效的成果。
總括而言,語言多樣性的保護是一個重要的任務,不僅是為了保存一種語言,更是在守護人類豐富多彩的文化遺產。透過AI技術的應用,我們可以為瀕危語言的保存提供新的可能性。
●中大賽馬會「智」為未來計劃
由香港賽馬會慈善信託基金捐助,香港中文大學工程學院及教育學院聯合主辦,旨在透過建構可持續的AI教育生態系統將AI帶入主流教育。通過獨有且內容全面的AI課程、創新AI學習套件、建立教師網絡並提供AI教學增值,計劃將為香港的科技教育寫下新一頁。