史丹福大學團隊 被揭抄襲中國AI模型

  圖:備受關注的AI大模型、不同地方申請AI專利情況
  圖:備受關注的AI大模型、不同地方申請AI專利情況

  近日,來自美國史丹福大學一家人工智能(AI)學生團隊疑似抄襲中國面壁智能的MiniCPM AI模型,引發了業界關注和網友熱議。史丹福的團隊已在網上向中方團隊道歉。專家表示,目前中國湧現出大批知名AI大模型企業,中國擁有龐大的互聯網用戶基數,提供了豐富的場景等數據資源,這對於訓練大模型來說是重要優勢,中國已快速成長為人工智能科技創新的重要推動者。\大公報記者 郭瀚林 凱雷 實習記者 蘇雨潤

  人工智能大模型是指擁有超大規模參數(通常在十億個以上)和超強計算資源的機器學習模型,能夠處理海量數據,完成各種複雜任務,如自然語言處理、圖像識別等。5月29日,史丹福大學三名學生組成的AI團隊發布了一款大模型名為Llama3-V,並聲稱其比OpenAI的GPT-4V、谷歌的Gemini Ultra以及Anthropic的Claude Opus性能更強,只花了500美元就能訓練出一個最優模型。不久,有使用者揭露,史丹福團隊開發的Llama3-V的模型結構、配置文件與一款中國大模型MiniCPM-Llama3-V 2.5模型完全相同,只是進行了部分簡單修改。

  揭硅谷「不光彩文化」

  MiniCPM由中國初創企業「面壁智能」和清華大學自然語言處理實驗室於5月中旬聯合推出。清華和面壁智能團隊隨後證實,史丹福大模型項目與MiniCPM一樣,可識別出「清華簡」(清華大學收藏的一批戰國中晚期竹簡)中的戰國古文字,「不僅對得一模一樣、連錯得都一模一樣」。由於此古文字數據並未對外公開,最終證實了抄襲事實。

  史丹福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg本月初在社交平台上發帖道歉,並將Llama3-V模型悉數撤下。該團隊裏主要負責撰寫代碼、來自南加大的Aljadery Mustafa已註銷自己的社交平台賬號。

  在上述團隊道歉前,史丹福人工智能實驗室主任曼寧(Christopher David Manning)發文譴責了抄襲行為,並稱MiniCPM「是很好的開源作品」,「作假直至成功(Fake it before you make it)這是硅谷不光彩的文化。」谷歌DeepMind研究員Lucas Beyer則針對此事評價,中國開源大模型擁有像MiniCPM這樣好的模型,卻沒有得到與技術實力相當的國際關注。

  構建開放技術社區環境

  面壁智能成立於2022年8月,其核心技術團隊源於清華自然語言處理實驗室,是在國內較早開展大模型研究的團隊之一。抄襲事件發酵後,面壁智能的聯合創始人兼CEO李大海在朋友圈發文表示,希望團隊的努力和優秀工作能夠吸引更多人的關注和認可,但並非以這種被模仿甚至抄襲的方式。他進一步強調,應該構建一個開放、協作且充滿信任的技術社區環境。

  面壁智能首席科學家、清華大學長聘副教授劉知遠也在知乎上發文表示,這次事件讓他感慨「過去十幾年科研經歷的斗轉星移」:「從橫向來看,我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距;同時,從縱向來看,我們已經從十幾年的無名之輩(nobody),快速成長為人工智能科技創新的關鍵推動者。面向即將到來的通用人工智能(AGI)時代,我們應該更加自信積極地投身其中。」

  專家:數據和應用 中國有優勢

  儘管中國在AI大模型的研發上起步稍晚,但其發展速度快。清華大學人工智能學院教授沈陽在接受大公報採訪時說,OpenAI在2022年推出ChatGPT,讓大眾真切感受到AI領域國內外的差距,近年來一度有「國外一開源、國內就自研」的說法。但國內從業者們「知恥而後勇」,開始進行追趕,中國湧現出一大批知名AI大模型企業,雙方在這一領域的差距正在縮小。

  「抄襲事件之所以引起廣泛大家關注,主要在於『反向抄襲』此前比較少見,過去國內AI團隊基於國外開源大模型來開發的情況比較多。」沈陽表示,中國國產大模型已經出現了越來越多的可圈可點之處,當前中美在大模型技術層面上至少可以做到「你中有我、我中有你」。「這件事可能是史丹福的學生團隊希望盡快拿到融資,因此抄襲中國數據訓練過的大模型進行『套殼』。」

  沈陽認為,中國在大模型研發領域有多項優勢,尤其是中國具備龐大的數據資源和應用場景。例如在製造業層面,從傳統產業到「新三樣」,中國形成了大批優勢產業集群;在服務業層面,中國的短視頻、電子商務,以及網文、移動遊戲等,都已經做到世界第一。這為中國大模型的訓練提供了強有力的支持,讓中國在AI大模型領域的發展更加迅速,具備在不遠的將來實現「彎道超車」的可能性。