OpenAI推新工具 文字可轉60秒視頻

  上圖:OpenAI推出AI視頻生成工具Sora,圖為其生成視頻「女子在東京街頭行走」截圖。\網絡圖片;下圖:Sora生成視頻「含有中國龍的新年慶典」截圖。\網絡圖片
  上圖:OpenAI推出AI視頻生成工具Sora,圖為其生成視頻「女子在東京街頭行走」截圖。\網絡圖片;下圖:Sora生成視頻「含有中國龍的新年慶典」截圖。\網絡圖片

  【大公報訊】綜合法新社、《華爾街日報》、《麻省理工科技評論》報道:繼推出熱門聊天機器人ChatGPT之後,人工智能(AI)公司OpenAI在15日又有大動作,宣布推出全新的視頻AI生成工具「Sora」。該工具能夠根據文字輸入,生成最長60秒的高品質視頻,極具「爆款」潛質。Sora目前仍存在許多缺陷,包括無法處理比較複雜的題材,發生「左右不分」等等。由於生成視頻的能力太過強大,該工具目前仍在測試階段,在OpenAI完成風險評估前,暫時不會對公眾開放。

  「在夜晚的城市中,霓虹燈光將街道點亮,身着皮衣的女子從行人中走出,墨鏡上反射出街道上的斑馬線」……乍一看,這段長達59秒的視頻似乎是真實拍攝的,然而它其實是由OpenAI全新AI視頻生成工具Sora憑藉寥寥數行輸入的文字,一鍵輸入、憑空生成的視頻。

  美國當地時間15日下午,OpenAI正式宣布推出視頻生成工具Sora,並發布了一系列該工具生成的演示視頻。這些視頻五花八門,題材包括猛獁象踏過雪原,淘金熱時期的美國小鎮、男子坐在白雲上讀書等等,畫面生動逼真,令人瞠目結舌。

  「人人都可當導演」

  AI視頻工具已成為業界的熱門話題。Sora十分易用,用戶只需輸入文字描述自己想要的視頻,AI就能輸出一段最長60秒、細節豐富的影片,毋須擁有任何視頻拍攝的設備與製作經驗,相比於傳統的視頻製作,AI效率更高、成本更低,大幅降低視頻門檻,幾可實現「人人都可以當導演」。

  Sora使用的技術,與OpenAI旗下的圖像生成AI工具DALL-E相似,使用「擴散模型」來訓練AI將隨機像素轉變成視頻。但是訓練AI處理視頻與以往的處理文字不同,因為視頻並非由文字組成。研究人員要想辦法,將視頻切成像文字單詞一樣的「塊」。最終,他們將視頻按幀數劃分,在空間和時間上也切割成「塊」。如此一來,Sora內部的神經網絡就能像處理語言文本一樣,能夠處理視頻「塊」。

  OpenAI科學家布魯克斯表示,建立能夠理解視頻,以及人們世界中複雜互動的模型,是所有未來AI系統的重要一步。其他科企,如Meta、谷歌在研究文字到視頻的AI技術。

  處理複雜題材仍存缺陷

  儘管OpenAI的演示視頻令人印象深刻,但在社交平台上,不少受邀測試的創作者發出的視頻,顯示了Sora問題不少,尤其是處理相對複雜題材。例如,在一個「男人在跑步」的視頻中,男子站在跑步機上,但卻在朝着與跑步機相反的方向跑動。在另一「穿幫」視頻中,一群小狼在小路上嬉戲的視頻中,發生了數次小狼「憑空出現」或「憑空消失」的情形。

  OpenAI警告稱,Sora當前的模型「存在缺陷」,例如在生成視頻期間對空間認知發生錯誤、發生「左右不分」,或無法在整個視頻中保持視覺連續性等。OpenAI解釋說,例如,視頻中一個人咬了一口餅乾,但之後這塊餅乾上的咬痕可能就會消失。《華盛頓郵報》記者Drew Harwell指出,Sora所生成的視頻中,人類手部形態有缺陷,易穿幫,這是AI生成圖像中最難以攻克的障礙之一。

  Sora能力讓人驚訝的同時,也引發了外界AI技術濫用的擔憂。OpenAI表示,已意識到了Sora可能會生成錯誤信息和仇恨內容等。Sora目前僅開放給少量學者與研究人員使用,其間將同時進行所謂的紅隊演練(red-teaming),即試圖讓AI工具「失靈」,產生不恰當的內容或出毛病,以發現問題。OpenAI在有結論之前,不會開放公眾使用Sora。