知見錄/語料決定論\胡一峰
影響AI水平的決定性因素不是其參數、架構,而是語料。有什麼樣的語料,就有什麼樣的AI。近來,我看到多位AI開發者、研究者提出了類似的看法。這讓我想起行為主義心理學家華生說過的名言:「給我一打健康的嬰兒,我可以隨機把他們訓練成不同的職業,可以是醫生、律師、藝術家、企業家,甚至是乞丐和賊,不管他們的天賦、興趣、能力以及血統。」
一個小孩從外界獲得的學習和感受,和AI接受語料的餵養,大概是相仿的,只是AI汲取的速度和規模都更大。馬克思曾說,人體解剖對於猴體解剖是一把鑰匙。作為最新科技的AI,和人類最古老的技術「養孩子」,竟然擁有共同的邏輯。而這提醒我們,想清楚給孩子「什麼」比挖空心思地琢磨「怎麼給」可能更加重要。鑒於時下各種熱門的「雞娃」大法關注的大都是「怎麼給」,AI和語料的關係所給予我們的啟發,確有助於緩解已然「猛於虎」的育兒焦慮。
當然,「給什麼」不僅關乎「量」,更關乎「質」。豐富而優質的語料才能訓練出高水平的AI。同樣,讓孩子置身於高質量的信息環境中,對其成長更有幫助。而算法推薦主導的網絡空間是令人擔憂的。假設把一個AI放在網上,任其從算法推薦的語料中學習,結果並不會讓人滿意。
「語料決定論」帶來的啟發還不止於育兒。對於我們每個人而言,生理意義上的長大是一個有限的階段,人格意義上的成長卻是一輩子的事。我們對「語料」的需要也貫穿從生到死。「讀萬卷書,行萬里路」,「事非經過不知難」,講的其實都是這個道理。因此,讀萬卷書,不應沉溺於快餐式的輕閱讀或滿足於聽人「講書」;行萬里路,不必陶醉在網紅地的「打卡式」旅遊;歷事煉心,不可滿足於「唯手熟爾」的舒適自得。如此,才能在不斷找到優質的「語料」中持續完善自我。